Converteer Word-document naar Markdown in Java

De ondersteuning van markdown-bestanden door tekstverwerkers heeft het gebruik ervan op grote schaal vergroot. Vandaar dat de conversie van bestaande tekstinhoud naar een markdown-formaat vaak vereist is. In dit artikel wordt besproken hoe u Word-documenten programmatisch converteert naar markdown-bestanden in Java. Onlangs hebben we al enkele van de volgende gerelateerde onderwerpen besproken:

Java API om Markdown-bestanden te parseren en te converteren

GroupDocs biedt API’s waarmee Word-documenten kunnen worden geparseerd en geconverteerd naar andere indelingen binnen toepassingen. We zullen de Java API gebruiken om Word DOC/DOCX-bestanden te ontleden en om te zetten in MD-bestanden. Verder ondersteunt de API het ontleden van vele andere bestandsindelingen zoals pdf’s, spreadsheets, presentaties, eBooks, opmaakdocumenten, e-mailberichten, afbeeldingen en vele andere die in de documentatie worden genoemd.

U kunt het JAR-bestand downloaden van de downloads-sectie of de nieuwste repository- en afhankelijkheidsconfiguraties gebruiken binnen uw op Maven gebaseerde Java-applicaties.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Hoe Word naar Markdown in Java te converteren

Waarom gaat u niet gewoon direct naar het onderwerp van uw interesse en laten we het Microsoft Word-document omzetten in een markdown-indeling? De volgende stappen laten zien hoe u de Word DOC/DOCX converteert naar Markdown in Java.

  • Laad het MS Word-bestand met behulp van de klasse Parser.
  • Haal de opgemaakte tekst van het geladen bestand op met behulp van de klasse FormattedTextOptions en de Markdown-modus.
  • Lees de volledige inhoud met behulp van de readToEnd-methode.
  • Converteer het naar de markdown-indeling door de inhoud naar een MD-bestand te schrijven met de schrijfmethode van de FileWriter-klasse.

De volgende Java-broncode converteert MS Word naar een Markdown-bestand.

import java.io.FileWriter;
import java.io.IOException;
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import com.groupdocs.parser.options.*;
...
...
try (Parser parser = new Parser("/path/document.docx")) {
    try (TextReader reader = parser.getFormattedText(new FormattedTextOptions(FormattedTextMode.Markdown))) {
        String content = reader.readToEnd();
        try {
            FileWriter myWriter = new FileWriter("/path/word-to-markdown.md");
            myWriter.write(content);
            myWriter.close();
        }
        catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Ontvang een gratis API-licentie

U kunt een gratis tijdelijke licentie voor het gebruik van de API krijgen zonder de evaluatiebeperkingen.

Conclusie

Om samen te vatten, we hebben geleerd om Word-bestanden te converteren naar markdown-indeling in Java binnen de applicaties. U kunt deze functie binnen uw toepassing gebruiken. U kunt uw toepassing uitbreiden door andere beschikbare functies van de API te gebruiken.

Leer meer over de Java Parser API met behulp van de documentatie en door de voorbeelden te ervaren die beschikbaar zijn op GitHub. Neem voor vragen contact met ons op via het forum.

Zie ook