在 Java 中將 Word 文檔轉換為 Markdown

文字處理編輯器對 markdown 文件的支持增加了它的大規模使用。因此,經常需要將現有文本內容轉換為 markdown 格式。本文討論如何以編程方式將 Word 文檔轉換為 Java 中的 markdown 文件。最近,我們已經討論了以下一些相關主題:

用於解析和轉換 Markdown 文件的 Java API

GroupDocs 提供的 API 允許在應用程序中解析 Word 文檔並將其轉換為其他格式。我們將使用其 Java API 來解析 Word DOC/DOCX 文件並將其轉換為 MD 文件。此外,該 API 支持解析許多其他文件格式,如 PDF、電子表格、演示文稿、電子書、標記文檔、電子郵件消息、圖像以及文檔中提到的許多其他格式。

您可以從 下載部分 下載 JAR 文件,或在基於 Maven 的 Java 應用程序中使用最新的存儲庫和依賴項配置。

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

如何在 Java 中將 Word 轉換為 Markdown

為什麼不直接轉到您感興趣的主題,讓我們將 Microsoft Word 文檔轉換為 markdown 格式?以下步驟展示瞭如何將 Word DOC/DOCX 轉換為 Java 中的 Markdown。

  • 使用 Parser 類加載 MS Word 文件。
  • 使用 FormattedTextOptions 類和 Markdown 模式獲取加載文件的格式化文本。
  • 使用 readToEnd 方法閱讀完整內容。
  • 通過使用 FileWriter 類的 write 方法將內容寫入 MD 文件,將其轉換為 markdown 格式。

以下 Java 源代碼將 MS Word 轉換為 Markdown 文件。

import java.io.FileWriter;
import java.io.IOException;
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import com.groupdocs.parser.options.*;
...
...
try (Parser parser = new Parser("/path/document.docx")) {
    try (TextReader reader = parser.getFormattedText(new FormattedTextOptions(FormattedTextMode.Markdown))) {
        String content = reader.readToEnd();
        try {
            FileWriter myWriter = new FileWriter("/path/word-to-markdown.md");
            myWriter.write(content);
            myWriter.close();
        }
        catch (IOException e) {
            e.printStackTrace();
        }
    }
}

獲取免費的 API 許可證

您可以獲得 免費使用 API 的臨時許可,沒有評估限制。

結論

總而言之,我們學會了在應用程序中將 Word 文件轉換為 Java 中的 markdown 格式。您可以在您的應用程序中使用此功能。您可以使用 API 的其他可用功能來擴展您的應用程序。

使用其 文檔 並體驗 GitHub 上提供的示例,了解有關 Java Parser API 的更多信息。如有任何疑問,請通過 論壇 聯繫我們。

也可以看看