Les développeurs ont souvent besoin d’extraire du texte de divers documents. Nous avons déjà discuté de l’extraction des archives ZIP, du comptage des mots dans les documents, de l’extraction des images des livres électroniques et de quelques autres méthodes d’analyse. Aujourd’hui, dans cet article, vous apprendrez à analyser et extraire du texte à partir des fichiers Markdown en Java.

Extraire le texte des fichiers MD à l'aide de C#.jpg

API Java pour l’extraction de texte Markdown

GroupDocs fournit API Java pour analyser des documents et extraire du texte à partir de divers formats de document dans les applications Java. L’API prend en charge l’analyse de nombreux formats de fichiers tels que :

  • Documents de traitement de texte : DOC, DOCX, …
  • Tableurs : XLS, XLSX, …
  • Présentations : PPT, PPTX, ….
  • Livres électroniques : EPUB, FB2, …
  • Images de codes-barres : JPG, PNG, …
  • La liste complète est mentionnée dans la documentation.

Cependant, dans cet article, nous utiliserons son GroupDocs.Parser for Java pour extraire uniquement le texte des fichiers MD à l’aide de Java.

Vous pouvez télécharger le fichier JAR à partir de la section téléchargements, ou simplement obtenir les configurations du référentiel et des dépendances pour le pom.xml de vos applications Java basées sur maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Extraire le texte du fichier Markdown en Java

Voici les étapes pour extraire tout le contenu du texte du fichier Markdown en Java.

  • Chargez le fichier MD à l’aide de la classe Parser.
  • Extrayez tout le texte dans TextReader à l’aide de la méthode getText.
  • Utilisez le texte comme vous le souhaitez.

Le code source Java suivant extrait le contenu textuel du fichier MD.

// Extraire le texte entier du fichier Markdown en Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Obtenez une licence API gratuite

Vous pouvez obtenir une licence temporaire gratuite pour utiliser l’API sans les limitations d’évaluation.

Conclusion

Pour résumer, l’article expliquait la manière simple et rapide d’extraire du texte des fichiers Markdown en Java. Cette approche vous a peut-être laissé penser à développer votre application d’extraction de texte et d’analyseur de documents comme Online Document Parser développé par GroupDocs.

Vous pouvez en savoir plus sur l’API Java d’analyse de documents à l’aide de sa documentation. Le moyen rapide d’apprendre est d’expérimenter les exemples disponibles sur GitHub. Contactez-nous pour toute question via le forum.

Voir également