開發人員經常有從各種文檔中提取文本的需求。我們已經討論了提取 ZIP 檔案、計算文檔中的單詞數、從電子書中提取圖像以及其他一些解析方法。今天,在本文中,您將學習如何用 Java 解析和提取 Markdown 文件中的文本。
用於 Markdown 文本提取的 Java API
GroupDocs 提供 Java API 來解析文檔並從 Java 應用程序中的各種文檔格式中提取文本。 API 支持解析多種文件格式,例如:
- 文字處理文檔:DOC、DOCX、……
- 電子表格:XLS、XLSX、……
- 演示文稿:PPT、PPTX、……
- 電子書:EPUB、FB2、……
- 條形碼圖像:JPG、PNG、……
- 文檔中提到了完整列表。
但是,在本文中,我們將使用它的 GroupDocs.Parser for Java 僅使用 Java 從 MD 文件中提取文本。
您可以從 下載部分 下載 JAR 文件,或者只獲取基於 maven 的 Java 應用程序的 pom.xml 的存儲庫和依賴項配置。
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.6</version>
</dependency>
在 Java 中從 Markdown 文件中提取文本
下面是用Java從markdown文件中提取全部文本內容的步驟。
- 使用 Parser 類加載 MD 文件。
- 使用 getText 方法將整個文本提取到 TextReader 中。
- 根據需要使用文本。
以下 Java 源代碼提取 MD 文件的文本內容。
// 在 Java 中提取 Markdown 文件的整個文本
try (Parser parser = new Parser("/path/document.md"))
{
TextReader reader = parser.getText()
System.out.println(reader.readToEnd());
}
獲取免費的 API 許可證
您可以 獲得免費的臨時許可證 以不受評估限制地使用 API。
結論
綜上所述,本文解釋瞭如何從 Java 中的 markdown 文件中提取文本的基本和快速方法。這種方法可能讓您想到開發文本提取和文檔解析器應用程序,例如 GroupDocs 開發的 Online Document Parser。
您可以使用其 文檔 了解更多關於文檔解析 Java API 的信息。快速學習的方法是體驗 GitHub 上提供的示例。如有任何疑問,請通過 論壇 聯繫我們。