开发人员经常需要从各种文档中提取文本。我们已经讨论了提取 ZIP 档案、计算文档中的单词、从电子书中提取图像以及其他一些解析方式。今天,在本文中,您将学习如何在 Java 中解析和提取 Markdown 文件中的文本。

使用 C#.jpg 从 MD 文件中提取文本

用于 Markdown 文本提取的 Java API

GroupDocs 提供 Java API 来解析文档和提取文本 从 Java 应用程序中的各种文档格式。该 API 支持解析多种文件格式,例如:

  • 文字处理文档:DOC、DOCX、……
  • 电子表格:XLS、XLSX、……
  • 演示文稿:PPT,PPTX,…。
  • 电子书:EPUB、FB2、……
  • 条码图像:JPG、PNG、…
  • 文档 中提到了完整列表。

但是,在本文中,我们将使用它的 GroupDocs.Parser for Java 仅从使用 Java 的 MD 文件中提取文本。

您可以从 下载部分 下载 JAR 文件,或者只获取基于 maven 的 Java 应用程序的 pom.xml 的存储库和依赖项配置。

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

从 Java 中的 Markdown 文件中提取文本

以下是从 Java 中的 markdown 文件中提取整个文本内容的步骤。

  • 使用 Parser 类加载 MD 文件。
  • 使用 getText 方法将整个文本提取到 TextReader 中。
  • 随意使用文本。

以下 Java 源代码提取了 MD 文件的文本内容。

// 在Java中提取Markdown文件的整个文本
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

获取免费 API 许可证

您可以获得免费的临时许可证 使用 API 而不受评估限制。

结论

综上所述,本文解释了如何从 Java 中的 markdown 文件中提取文本的基本且快速的方法。这种方法可能让您想到开发您的文本提取和文档解析器应用程序,例如由 GroupDocs 开发的 Online Document Parser

您可以使用其 documentation 了解有关文档解析 Java API 的更多信息。快速学习的方法是体验 GitHub 上提供的示例。如有任何疑问,请通过 论坛 联系我们。

也可以看看