开发人员经常需要从各种文档中提取文本。我们已经讨论了提取 ZIP 档案、计算文档中的单词、从电子书中提取图像以及其他一些解析方式。今天,在本文中,您将学习如何在 Java 中解析和提取 Markdown 文件中的文本。

用于 Markdown 文本提取的 Java API
GroupDocs 提供 Java API 来解析文档和提取文本 从 Java 应用程序中的各种文档格式。该 API 支持解析多种文件格式,例如:
- 文字处理文档:DOC、DOCX、……
- 电子表格:XLS、XLSX、……
- 演示文稿:PPT,PPTX,…。
- 电子书:EPUB、FB2、……
- 条码图像:JPG、PNG、…
- 文档 中提到了完整列表。
但是,在本文中,我们将使用它的 GroupDocs.Parser for Java 仅从使用 Java 的 MD 文件中提取文本。
您可以从 下载部分 下载 JAR 文件,或者只获取基于 maven 的 Java 应用程序的 pom.xml 的存储库和依赖项配置。
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.6</version>
</dependency>
从 Java 中的 Markdown 文件中提取文本
以下是从 Java 中的 markdown 文件中提取整个文本内容的步骤。
- 使用 Parser 类加载 MD 文件。
- 使用 getText 方法将整个文本提取到 TextReader 中。
- 随意使用文本。
以下 Java 源代码提取了 MD 文件的文本内容。
// 在Java中提取Markdown文件的整个文本
try (Parser parser = new Parser("/path/document.md"))
{
TextReader reader = parser.getText()
System.out.println(reader.readToEnd());
}
获取免费 API 许可证
您可以获得免费的临时许可证 使用 API 而不受评估限制。
结论
综上所述,本文解释了如何从 Java 中的 markdown 文件中提取文本的基本且快速的方法。这种方法可能让您想到开发您的文本提取和文档解析器应用程序,例如由 GroupDocs 开发的 Online Document Parser。
您可以使用其 documentation 了解有关文档解析 Java API 的更多信息。快速学习的方法是体验 GitHub 上提供的示例。如有任何疑问,请通过 论坛 联系我们。