Converter documento do Word para Markdown em Java

O suporte de arquivos markdown por editores de processamento de texto aumentou seu uso em larga escala. Portanto, a conversão do conteúdo de texto existente em formato markdown é frequentemente exigida. Este artigo descreve como converter documentos do Word programaticamente em arquivos de remarcação em Java. Recentemente, já discutimos alguns dos seguintes tópicos relacionados:

API Java para analisar e converter arquivos Markdown

O GroupDocs fornece APIs que permitem a análise de documentos do Word e sua conversão em outros formatos dentro dos aplicativos. Usaremos sua API Java para analisar e transformar arquivos Word DOC/DOCX em arquivos MD. Além disso, a API suporta a análise de muitos outros formatos de arquivo, como PDFs, planilhas, apresentações, eBooks, documentos de marcação, mensagens de e-mail, imagens e muitos outros mencionados na documentação.

Você pode baixar o arquivo JAR da seção de downloads ou usar as configurações de repositório e dependência mais recentes em seus aplicativos Java baseados em Maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Como converter Word para Markdown em Java

Por que não ir direto ao tópico de seu interesse e transformar o documento do Microsoft Word em formato markdown? As etapas a seguir mostram como converter o Word DOC/DOCX para Markdown em Java.

  • Carregue o arquivo MS Word usando a classe Parser.
  • Obtenha o texto formatado do arquivo carregado usando a classe FormattedTextOptions e o modo Markdown.
  • Leia o conteúdo completo usando o método readToEnd.
  • Converta-o para o formato markdown gravando o conteúdo em um arquivo MD usando o método de gravação da classe FileWriter.

O código-fonte Java a seguir converte o MS Word em um arquivo Markdown.

import java.io.FileWriter;
import java.io.IOException;
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import com.groupdocs.parser.options.*;
...
...
try (Parser parser = new Parser("/path/document.docx")) {
    try (TextReader reader = parser.getFormattedText(new FormattedTextOptions(FormattedTextMode.Markdown))) {
        String content = reader.readToEnd();
        try {
            FileWriter myWriter = new FileWriter("/path/word-to-markdown.md");
            myWriter.write(content);
            myWriter.close();
        }
        catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Obtenha uma licença de API gratuita

Você pode obter uma licença temporária gratuita para usar a API sem as limitações de avaliação.

Conclusão

Para resumir, aprendemos a converter arquivos do Word em formato markdown em Java dentro dos aplicativos. Você pode utilizar esse recurso em seu aplicativo. Você pode estender seu aplicativo usando outros recursos disponíveis da API.

Saiba mais sobre a Java Parser API usando sua documentação e experimentando os exemplos disponíveis no GitHub. Contacte-nos para qualquer questão através do fórum.

Veja também