開發人員經常有從各種文檔中提取文本的需求。我們已經討論了提取 ZIP 檔案、計算文檔中的單詞數、從電子書中提取圖像以及其他一些解析方法。今天,在本文中,您將學習如何用 Java 解析和提取 Markdown 文件中的文本。

使用 C#.jpg 從 MD 文件中提取文本

用於 Markdown 文本提取的 Java API

GroupDocs 提供 Java API 來解析文檔並從 Java 應用程序中的各種文檔格式中提取文本。 API 支持解析多種文件格式,例如:

  • 文字處理文檔:DOC、DOCX、……
  • 電子表格:XLS、XLSX、……
  • 演示文稿:PPT、PPTX、……
  • 電子書:EPUB、FB2、……
  • 條形碼圖像:JPG、PNG、……
  • 文檔中提到了完整列表。

但是,在本文中,我們將使用它的 GroupDocs.Parser for Java 僅使用 Java 從 MD 文件中提取文本。

您可以從 下載部分 下載 JAR 文件,或者只獲取基於 maven 的 Java 應用程序的 pom.xml 的存儲庫和依賴項配置。

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

在 Java 中從 Markdown 文件中提取文本

下面是用Java從markdown文件中提取全部文本內容的步驟。

  • 使用 Parser 類加載 MD 文件。
  • 使用 getText 方法將整個文本提取到 TextReader 中。
  • 根據需要使用文本。

以下 Java 源代碼提取 MD 文件的文本內容。

// 在 Java 中提取 Markdown 文件的整個文本
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

獲取免費的 API 許可證

您可以 獲得免費的臨時許可證 以不受評估限制地使用 API。

結論

綜上所述,本文解釋瞭如何從 Java 中的 markdown 文件中提取文本的基本和快速方法。這種方法可能讓您想到開發文本提取和文檔解析器應用程序,例如 GroupDocs 開發的 Online Document Parser

您可以使用其 文檔 了解更多關於文檔解析 Java API 的信息。快速學習的方法是體驗 GitHub 上提供的示例。如有任何疑問,請通過 論壇 聯繫我們。

也可以看看