Convertir documento de Word a Markdown en Java

La compatibilidad con los archivos de rebajas por parte de los editores de procesamiento de textos ha aumentado su uso a gran escala. Por lo tanto, a menudo se exige la conversión del contenido de texto existente en formato de descuento. Este artículo explica cómo convertir mediante programación documentos de Word en archivos Markdown en Java. Recientemente, ya hemos discutido algunos de los siguientes temas relacionados:

API de Java para analizar y convertir archivos Markdown

GroupDocs proporciona API que permiten el análisis de documentos de Word y su conversión a otros formatos dentro de las aplicaciones. Usaremos su API de Java para analizar y transformar archivos DOC/DOCX de Word en archivos MD. Además, la API admite el análisis de muchos otros formatos de archivo como PDF, hojas de cálculo, presentaciones, libros electrónicos, documentos de marcado, mensajes de correo electrónico, imágenes y muchos otros mencionados en la documentación.

Puede descargar el archivo JAR desde la sección de descargas o usar las configuraciones de dependencia y repositorio más recientes dentro de sus aplicaciones Java basadas en Maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Cómo convertir Word a Markdown en Java

¿Por qué no pasa directamente al tema de su interés y transformamos el documento de Microsoft Word en formato Markdown? Los siguientes pasos muestran cómo convertir Word DOC/DOCX a Markdown en Java.

  • Cargue el archivo de MS Word usando la clase Parser.
  • Obtenga el texto formateado del archivo cargado usando la clase FormattedTextOptions y el modo Markdown.
  • Lea el contenido completo utilizando el método readToEnd.
  • Conviértalo al formato Markdown escribiendo el contenido en un archivo MD utilizando el método de escritura de la clase FileWriter.

El siguiente código fuente de Java convierte MS Word en un archivo Markdown.

import java.io.FileWriter;
import java.io.IOException;
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import com.groupdocs.parser.options.*;
...
...
try (Parser parser = new Parser("/path/document.docx")) {
    try (TextReader reader = parser.getFormattedText(new FormattedTextOptions(FormattedTextMode.Markdown))) {
        String content = reader.readToEnd();
        try {
            FileWriter myWriter = new FileWriter("/path/word-to-markdown.md");
            myWriter.write(content);
            myWriter.close();
        }
        catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Obtenga una licencia de API gratuita

Puede obtener una licencia temporal gratuita para usar la API sin las limitaciones de evaluación.

Conclusión

Para resumir, aprendimos a convertir archivos de Word a formato Markdown en Java dentro de las aplicaciones. Puede utilizar esta característica dentro de su aplicación. Puede ampliar su aplicación utilizando otras funciones disponibles de la API.

Obtenga más información sobre la API de Java Parser usando su documentación y experimentando los ejemplos disponibles en GitHub. Contacta con nosotros para cualquier consulta a través del foro.

Ver también