Преобразование документа Word в Markdown в Java

Поддержка файлов уценки редакторами текстовых процессоров увеличила их использование в больших масштабах. Следовательно, часто требуется преобразование существующего текстового контента в формат уценки. В этой статье обсуждается, как программно преобразовать документы Word в файлы уценки в Java. Недавно мы уже обсуждали некоторые из следующих связанных тем:

API Java для анализа и преобразования файлов Markdown

GroupDocs предоставляет API, которые позволяют анализировать документы Word и преобразовывать их в другие форматы в приложениях. Мы будем использовать его Java API для анализа и преобразования файлов Word DOC/DOCX в файлы MD. Кроме того, API поддерживает синтаксический анализ многих других форматов файлов, таких как PDF-файлы, электронные таблицы, презентации, электронные книги, документы с разметкой, сообщения электронной почты, изображения и многие другие, упомянутые в документации.

Вы можете загрузить JAR-файл из раздела загрузок или использовать последний репозиторий и конфигурации зависимостей в своих Java-приложениях на основе Maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Как преобразовать Word в Markdown в Java

Почему бы просто не перейти сразу к интересующей вас теме и не преобразовать документ Microsoft Word в формат уценки? Следующие шаги показывают, как преобразовать Word DOC/DOCX в Markdown в Java.

  • Загрузите файл MS Word, используя класс Parser.
  • Получите форматированный текст загруженного файла, используя класс FormattedTextOptions и режим Markdown.
  • Прочитайте полное содержимое, используя метод readToEnd.
  • Преобразуйте его в формат уценки, записав содержимое в файл MD с помощью метода записи класса FileWriter.

Следующий исходный код Java преобразует MS Word в файл Markdown.

import java.io.FileWriter;
import java.io.IOException;
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import com.groupdocs.parser.options.*;
...
...
try (Parser parser = new Parser("/path/document.docx")) {
    try (TextReader reader = parser.getFormattedText(new FormattedTextOptions(FormattedTextMode.Markdown))) {
        String content = reader.readToEnd();
        try {
            FileWriter myWriter = new FileWriter("/path/word-to-markdown.md");
            myWriter.write(content);
            myWriter.close();
        }
        catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Получите бесплатную лицензию API

Вы можете получить бесплатную временную лицензию на использование API без ограничений пробной версии.

Вывод

Подводя итог, мы научились конвертировать файлы Word в формат уценки на Java внутри приложений. Вы можете использовать эту функцию в своем приложении. Вы можете расширить свое приложение, используя другие доступные функции API.

Узнайте больше об API Java Parser, используя его документацию и ознакомившись с примерами, доступными на GitHub. Свяжитесь с нами по любому вопросу через форум.

Смотрите также