Java 从 Markdown 文件中提取文本降价提取器

开发人员经常需要从各种文档中提取文本。我们已经讨论了提取 ZIP 档案、计算文档中的单词、从电子书中提取图像以及其他一些解析方式。今天，在本文中，您将学习如何在 Java 中解析和提取 Markdown 文件中的文本。

用于 Markdown 文本提取的 Java API

GroupDocs 提供 Java API 来解析文档和提取文本从 Java 应用程序中的各种文档格式。该 API 支持解析多种文件格式，例如：

文字处理文档：DOC、DOCX、……
电子表格：XLS、XLSX、……
演示文稿：PPT，PPTX，…。
电子书：EPUB、FB2、……
条码图像：JPG、PNG、…
文档中提到了完整列表。

但是，在本文中，我们将使用它的 GroupDocs.Parser for Java 仅从使用 Java 的 MD 文件中提取文本。

您可以从下载部分下载 JAR 文件，或者只获取基于 maven 的 Java 应用程序的 pom.xml 的存储库和依赖项配置。

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

从 Java 中的 Markdown 文件中提取文本

以下是从 Java 中的 markdown 文件中提取整个文本内容的步骤。

使用 Parser 类加载 MD 文件。
使用 getText 方法将整个文本提取到 TextReader 中。
随意使用文本。

以下 Java 源代码提取了 MD 文件的文本内容。

// 在Java中提取Markdown文件的整个文本
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

获取免费 API 许可证

您可以获得免费的临时许可证使用 API 而不受评估限制。

结论

综上所述，本文解释了如何从 Java 中的 markdown 文件中提取文本的基本且快速的方法。这种方法可能让您想到开发您的文本提取和文档解析器应用程序，例如由 GroupDocs 开发的 Online Document Parser。

您可以使用其 documentation 了解有关文档解析 Java API 的更多信息。快速学习的方法是体验 GitHub 上提供的示例。如有任何疑问，请通过论坛联系我们。

用于 Markdown 文本提取的 Java API#

从 Java 中的 Markdown 文件中提取文本#

获取免费 API 许可证#

结论#

也可以看看#

用于 Markdown 文本提取的 Java API

从 Java 中的 Markdown 文件中提取文本

获取免费 API 许可证

结论

也可以看看