Los desarrolladores a menudo tienen requisitos para extraer texto de varios documentos. Ya hemos discutido la extracción de archivos ZIP, el conteo de palabras en documentos, la extracción de imágenes de libros electrónicos y algunas otras formas de análisis. Hoy, en este artículo, aprenderá cómo analizar y extraer texto de los archivos Markdown en Java.

Extrae texto de archivos MD usando C#.jpg

API de Java para la extracción de texto Markdown

GroupDocs proporciona API de Java para analizar documentos y extraer texto de varios formatos de documentos dentro de las aplicaciones de Java. La API admite el análisis de muchos formatos de archivo como:

  • Documentos de procesamiento de texto: DOC, DOCX, …
  • Hojas de cálculo: XLS, XLSX, …
  • Presentaciones: PPT, PPTX, ….
  • Libros electrónicos: EPUB, FB2, …
  • Imágenes de código de barras: JPG, PNG, …
  • La lista completa se menciona en la documentación.

Sin embargo, en este artículo, usaremos su GroupDocs.Parser for Java para extraer solo texto de los archivos MD usando Java.

Puede descargar el archivo JAR de la sección de descargas, o simplemente obtener el repositorio y las configuraciones de dependencia para pom.xml de sus aplicaciones Java basadas en maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Extraiga texto del archivo Markdown en Java

Los siguientes son los pasos para extraer todo el contenido del texto del archivo Markdown en Java.

  • Cargue el archivo MD usando la clase Parser.
  • Extrae el texto completo en TextReader usando el método getText.
  • Usa el texto como quieras.

El siguiente código fuente de Java extrae el contenido textual del archivo MD.

// Extraiga el texto completo del archivo Markdown en Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Obtenga una licencia de API gratuita

Puede obtener una licencia temporal gratuita para usar la API sin las limitaciones de evaluación.

Conclusión

En resumen, el artículo explicó la forma básica y rápida de cómo extraer texto de los archivos Markdown en Java. Es posible que este enfoque le haya permitido pensar en desarrollar su aplicación de extracción de texto y analizador de documentos como el Analizador de documentos en línea desarrollado por GroupDocs.

Puede obtener más información sobre el análisis de documentos de la API de Java utilizando su documentación. La forma rápida de aprender es experimentar los ejemplos que están disponibles en GitHub. Contacta con nosotros para cualquier consulta a través del foro.

Ver también