Ontwikkelaars hebben vaak vereisten om tekst uit verschillende documenten te extraheren. We hebben het al gehad over het extraheren van ZIP-archieven, het tellen van woorden in documenten, het extraheren van afbeeldingen uit eBooks en een paar andere ontledingsmanieren. Vandaag leer je in dit artikel hoe je tekst kunt ontleden en extraheren uit de Markdown-bestanden in Java.

Extraheer tekst uit MD-bestanden met C#.jpg

Java API voor Markdown-tekstextractie

GroupDocs biedt Java API om documenten te ontleden en tekst te extraheren uit verschillende documentindelingen binnen de Java-toepassingen. De API ondersteunt het parseren van veel bestandsindelingen, zoals:

  • Tekstverwerkingsdocumenten: DOC, DOCX, …
  • Spreadsheets: XLS, XLSX, …
  • Presentaties: PPT, PPTX, ….
  • eBoeken: EPUB, FB2, …
  • Barcode-afbeeldingen: JPG, PNG, …
  • De volledige lijst staat vermeld in de documentatie.

In dit artikel zullen we de GroupDocs.Parser for Java gebruiken om alleen tekst uit de MD-bestanden te extraheren met Java.

U kunt het JAR-bestand downloaden van de downloads-sectie, of gewoon de repository- en afhankelijkheidsconfiguraties voor pom.xml van uw maven-gebaseerde Java-applicaties downloaden.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Extraheer tekst uit Markdown-bestand in Java

Hieronder volgen de stappen om de volledige tekstinhoud uit het markdown-bestand in Java te extraheren.

  • Laad het MD-bestand met behulp van de klasse Parser.
  • Extraheer de hele tekst in TextReader met behulp van de methode getText.
  • Gebruik de tekst zoals je wilt.

De volgende Java-broncode extraheert de tekstuele inhoud van het MD-bestand.

// Extraheer de volledige tekst van het Markdown-bestand in Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Ontvang een gratis API-licentie

U kunt een gratis tijdelijke licentie krijgen om de API te gebruiken zonder de evaluatiebeperkingen.

Conclusie

Samenvattend legde het artikel de eenvoudige en snelle manier uit om tekst uit de markdown-bestanden in Java te extraheren. Deze benadering heeft u misschien aan het denken gezet om uw toepassing voor tekstextractie en documentparser te ontwikkelen, zoals de Online Document Parser ontwikkeld door GroupDocs.

U kunt meer leren over het parseren van Java API met behulp van de bijbehorende documentatie. De snelle manier om te leren is door de voorbeelden te ervaren die beschikbaar zijn op GitHub. Neem voor vragen contact met ons op via het forum.

Zie ook