Convertir un document Word en Markdown en Java

La prise en charge des fichiers de démarquage par les éditeurs de traitement de texte a accru son utilisation à grande échelle. Par conséquent, la conversion du contenu textuel existant au format Markdown est souvent exigée. Cet article explique comment convertir par programmation des documents Word en fichiers Markdown en Java. Récemment, nous avons déjà discuté de certains des sujets connexes suivants :

API Java pour analyser et convertir des fichiers Markdown

GroupDocs fournit des API qui permettent l’analyse de documents Word et sa conversion dans d’autres formats au sein des applications. Nous utiliserons son API Java pour analyser et transformer les fichiers Word DOC/DOCX en fichiers MD. De plus, l’API prend en charge l’analyse de nombreux autres formats de fichiers tels que les PDF, les feuilles de calcul, les présentations, les livres électroniques, les documents de balisage, les messages électroniques, les images et bien d’autres mentionnés dans la documentation.

Vous pouvez télécharger le fichier JAR à partir de la section des téléchargements ou utiliser les dernières configurations de référentiel et de dépendance dans vos applications Java basées sur Maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Comment convertir Word en Markdown en Java

Pourquoi ne pas simplement passer directement au sujet qui vous intéresse et transformer le document Microsoft Word au format Markdown ? Les étapes suivantes montrent comment convertir le Word DOC/DOCX en Markdown en Java.

  • Chargez le fichier MS Word à l’aide de la classe Parser.
  • Obtenez le texte formaté du fichier chargé à l’aide de la classe FormattedTextOptions et du mode Markdown.
  • Lisez le contenu complet à l’aide de la méthode readToEnd.
  • Convertissez-le au format Markdown en écrivant le contenu dans un fichier MD à l’aide de la méthode d’écriture de la classe FileWriter.

Le code source Java suivant convertit MS Word en un fichier Markdown.

import java.io.FileWriter;
import java.io.IOException;
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import com.groupdocs.parser.options.*;
...
...
try (Parser parser = new Parser("/path/document.docx")) {
    try (TextReader reader = parser.getFormattedText(new FormattedTextOptions(FormattedTextMode.Markdown))) {
        String content = reader.readToEnd();
        try {
            FileWriter myWriter = new FileWriter("/path/word-to-markdown.md");
            myWriter.write(content);
            myWriter.close();
        }
        catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Obtenez une licence API gratuite

Vous pouvez obtenir une licence temporaire gratuite pour utiliser l’API sans les limitations d’évaluation.

Conclusion

Pour résumer, nous avons appris à convertir des fichiers Word au format Markdown en Java au sein des applications. Vous pouvez utiliser cette fonctionnalité dans votre application. Vous pouvez étendre votre application en utilisant d’autres fonctionnalités disponibles de l’API.

Apprenez-en plus sur l’API Java Parser en utilisant sa documentation et en découvrant les exemples disponibles sur GitHub. Contactez-nous pour toute question via le forum.

Voir également