Entwickler müssen häufig Text aus verschiedenen Dokumenten extrahieren. Wir haben bereits das Extrahieren von ZIP-Archiven, das Zählen von Wörtern in Dokumenten, das Extrahieren von Bildern aus eBooks und einige andere Parsing-Möglichkeiten besprochen. Heute erfahren Sie in diesem Artikel, wie Sie Text aus den Markdown-Dateien in Java parsen und extrahieren.

Extrahieren Sie Text aus MD-Dateien mit C#.jpg

Java-API für Markdown-Textextraktion

GroupDocs bietet Java-API zum Analysieren von Dokumenten und Extrahieren von Text aus verschiedenen Dokumentformaten innerhalb der Java-Anwendungen. Die API unterstützt das Parsen vieler Dateiformate wie:

  • Textverarbeitungsdokumente: DOC, DOCX, …
  • Tabellenkalkulationen: XLS, XLSX, …
  • Präsentationen: PPT, PPTX, ….
  • eBooks: EPUB, FB2, …
  • Barcodebilder: JPG, PNG, …
  • Die vollständige Liste ist in der Dokumentation aufgeführt.

In diesem Artikel verwenden wir jedoch seinen GroupDocs.Parser for Java, um nur Text aus den MD-Dateien mit Java zu extrahieren.

Sie können die JAR-Datei aus dem Download-Bereich herunterladen oder einfach die Repository- und Abhängigkeitskonfigurationen für die pom.xml Ihrer Maven-basierten Java-Anwendungen abrufen.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Extrahieren Sie Text aus der Markdown-Datei in Java

Im Folgenden sind die Schritte zum Extrahieren des gesamten Textinhalts aus der Markdown-Datei in Java aufgeführt.

  • Laden Sie die MD-Datei mit der Klasse Parser.
  • Extrahieren Sie den gesamten Text mit der getText-Methode in TextReader.
  • Verwenden Sie den Text nach Belieben.

Der folgende Java-Quellcode extrahiert den Textinhalt der MD-Datei.

// Extrahieren Sie den gesamten Text der Markdown-Datei in Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Holen Sie sich eine kostenlose API-Lizenz

Sie können eine kostenlose temporäre Lizenz erhalten, um die API ohne die Evaluierungseinschränkungen zu verwenden.

Fazit

Zusammenfassend erklärte der Artikel die einfache und schnelle Methode zum Extrahieren von Text aus den Markdown-Dateien in Java. Dieser Ansatz hat Sie möglicherweise dazu veranlasst, Ihre Textextraktions- und Dokumentparser-Anwendung wie den von GroupDocs entwickelten Online Document Parser zu entwickeln.

Weitere Informationen zum Analysieren von Dokumenten in der Java-API finden Sie in der Dokumentation. Der schnelle Weg zum Lernen besteht darin, die Beispiele zu erleben, die auf GitHub verfügbar sind. Kontaktieren Sie uns bei Fragen über das Forum.

Siehe auch