文字处理编辑器对降价文件的支持大大增加了其使用量。因此,经常需要将现有文本内容转换为 markdown 格式。本文讨论如何以编程方式将 Word 文档转换为 Java 中的 markdown 文件。最近,我们已经讨论了以下一些相关主题:
用于解析和转换 Markdown 文件的 Java API
GroupDocs 提供的 API 允许 Word 文档解析并将其转换为应用程序中的其他格式。我们将使用其 Java API 将 Word DOC/DOCX 文件解析并转换为 MD 文件。此外,API 支持解析许多其他文件格式,如 PDF、电子表格、演示文稿、电子书、标记文档、电子邮件、图像以及文档中提到的许多其他文件格式。
您可以从 下载部分 下载 JAR 文件,或在基于 Maven 的 Java 应用程序中使用最新的存储库和依赖项配置。
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.6</version>
</dependency>
如何在 Java 中将 Word 转换为 Markdown
为什么不直接进入您感兴趣的主题,让我们将 Microsoft Word 文档转换为 markdown 格式?以下步骤展示了如何在 Java 中将 Word DOC/DOCX 转换为 Markdown。
- 使用 Parser 类加载 MS Word 文件。
- 使用 FormattedTextOptions 类和 Markdown 模式获取加载文件的格式化文本。
- 使用 readToEnd 方法阅读完整的内容。
- 使用 FileWriter 类的 write 方法将内容写入 MD 文件,将其转换为 markdown 格式。
以下 Java 源代码将 MS Word 转换为 Markdown 文件。
import java.io.FileWriter;
import java.io.IOException;
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import com.groupdocs.parser.options.*;
...
...
try (Parser parser = new Parser("/path/document.docx")) {
try (TextReader reader = parser.getFormattedText(new FormattedTextOptions(FormattedTextMode.Markdown))) {
String content = reader.readToEnd();
try {
FileWriter myWriter = new FileWriter("/path/word-to-markdown.md");
myWriter.write(content);
myWriter.close();
}
catch (IOException e) {
e.printStackTrace();
}
}
}
获取免费 API 许可证
您可以获得使用 API 的免费临时许可证,没有评估限制。
结论
总而言之,我们学会了在应用程序中将 Word 文件转换为 Java 中的 markdown 格式。您可以在您的应用程序中使用此功能。您可以使用 API 的其他可用功能来扩展您的应用程序。
使用其 文档 并体验 GitHub 上提供的示例,了解有关 Java Parser API 的更多信息。如有任何疑问,请通过 论坛 联系我们。