Gli sviluppatori hanno spesso requisiti per estrarre testo da vari documenti. Abbiamo già discusso dell’estrazione di archivi ZIP, del conteggio delle parole nei documenti, dell’estrazione di immagini dagli eBook e di alcuni altri modi di analisi. Oggi, in questo articolo, imparerai come analizzare ed estrarre testo dai file Markdown in Java.

Estrai il testo dai file MD usando C#.jpg

API Java per l’estrazione di testo Markdown

GroupDocs fornisce API Java per analizzare documenti ed estrarre testo da vari formati di documento all’interno delle applicazioni Java. L’API supporta l’analisi di molti formati di file come:

  • Documenti di elaborazione testi: DOC, DOCX, …
  • Fogli di calcolo: XLS, XLSX, …
  • Presentazioni: PPT, PPTX, ….
  • eBook: EPUB, FB2, …
  • Immagini di codici a barre: JPG, PNG, …
  • L’elenco completo è menzionato nella documentazione.

Tuttavia, in questo articolo, utilizzeremo GroupDocs.Parser for Java solo per estrarre il testo dai file MD utilizzando Java.

Puoi scaricare il file JAR dalla sezione download, o semplicemente ottenere il repository e le configurazioni delle dipendenze per il pom.xml delle tue applicazioni Java basate su Maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Estrai il testo dal file Markdown in Java

Di seguito sono riportati i passaggi per estrarre l’intero contenuto del testo dal file markdown in Java.

  • Carica il file MD usando la classe Parser.
  • Estrai l’intero testo in TextReader usando il metodo getText.
  • Usa il testo come desideri.

Il seguente codice sorgente Java estrae il contenuto testuale del file MD.

// Estrai l'intero file di testo di Markdown in Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Ottieni una licenza API gratuita

Puoi ottenere una licenza temporanea gratuita per utilizzare l’API senza i limiti di valutazione.

Conclusione

Per riassumere, l’articolo ha spiegato il modo semplice e rapido per estrarre il testo dai file markdown in Java. Questo approccio potrebbe averti fatto pensare di sviluppare la tua applicazione per l’estrazione di testo e l’analisi dei documenti come Online Document Parser sviluppato da GroupDocs.

Puoi saperne di più sull’API Java per l’analisi dei documenti utilizzando la sua documentazione. Il modo rapido per imparare è provare gli esempi disponibili su GitHub. Contattaci per qualsiasi domanda tramite il forum.

Guarda anche