在 Java 中将 Word 文档转换为 Markdown

文字处理编辑器对降价文件的支持大大增加了其使用量。因此,经常需要将现有文本内容转换为 markdown 格式。本文讨论如何以编程方式将 Word 文档转换为 Java 中的 markdown 文件。最近,我们已经讨论了以下一些相关主题:

用于解析和转换 Markdown 文件的 Java API

GroupDocs 提供的 API 允许 Word 文档解析并将其转换为应用程序中的其他格式。我们将使用其 Java API 将 Word DOC/DOCX 文件解析并转换为 MD 文件。此外,API 支持解析许多其他文件格式,如 PDF、电子表格、演示文稿、电子书、标记文档、电子邮件、图像以及文档中提到的许多其他文件格式。

您可以从 下载部分 下载 JAR 文件,或在基于 Maven 的 Java 应用程序中使用最新的存储库和依赖项配置。

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

如何在 Java 中将 Word 转换为 Markdown

为什么不直接进入您感兴趣的主题,让我们将 Microsoft Word 文档转换为 markdown 格式?以下步骤展示了如何在 Java 中将 Word DOC/DOCX 转换为 Markdown。

  • 使用 Parser 类加载 MS Word 文件。
  • 使用 FormattedTextOptions 类和 Markdown 模式获取加载文件的格式化文本。
  • 使用 readToEnd 方法阅读完整的内容。
  • 使用 FileWriter 类的 write 方法将内容写入 MD 文件,将其转换为 markdown 格式。

以下 Java 源代码将 MS Word 转换为 Markdown 文件。

import java.io.FileWriter;
import java.io.IOException;
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import com.groupdocs.parser.options.*;
...
...
try (Parser parser = new Parser("/path/document.docx")) {
    try (TextReader reader = parser.getFormattedText(new FormattedTextOptions(FormattedTextMode.Markdown))) {
        String content = reader.readToEnd();
        try {
            FileWriter myWriter = new FileWriter("/path/word-to-markdown.md");
            myWriter.write(content);
            myWriter.close();
        }
        catch (IOException e) {
            e.printStackTrace();
        }
    }
}

获取免费 API 许可证

您可以获得使用 API 的免费临时许可证,没有评估限制。

结论

总而言之,我们学会了在应用程序中将 Word 文件转换为 Java 中的 markdown 格式。您可以在您的应用程序中使用此功能。您可以使用 API 的其他可用功能来扩展您的应用程序。

使用其 文档 并体验 GitHub 上提供的示例,了解有关 Java Parser API 的更多信息。如有任何疑问,请通过 论坛 联系我们。

也可以看看