Como programador, a menudo tenemos el requisito de obtener el texto extraído de varios tipos de documentos. Anteriormente, hemos discutido el conteo de palabras en documentos, la extracción de archivos ZIP, la extracción de imágenes de libros electrónicos y el análisis de campos de formulario PDF. Hoy, en este artículo, aprenderá cómo analizar y extraer texto de archivos Markdown usando C#.

Extrae texto de archivos MD usando C#.jpg

API .NET para la extracción de texto Markdown

GroupDocs proporciona su API .NET para analizar documentos y extraer texto de varios formatos de documentos dentro de las aplicaciones .NET. En este artículo, usaremos su GroupDocs.Parser for .NET para extraer texto de los archivos MD usando C#.

Además, la API admite el análisis de muchos otros formatos de archivo, como documentos de procesamiento de texto (DOC, DOCX,…), hojas de cálculo (XLS, XLSX,…), presentaciones (PPT, PPTX,…), libros electrónicos (EPUB, FB2,…) , imágenes de código de barras (JPG, PNG, …), y muchos otros mencionados en su documentación.

Puede descargar las DLL o el instalador MSI desde la sección de descargas o instalar la API en su aplicación .NET a través de NuGet.

PM> Install-Package GroupDocs.Parser

Extraiga texto del archivo Markdown en C#

Los siguientes son los pasos para extraer todo el contenido del texto del archivo Markdown usando C#.

  • Cargue el archivo MD usando la clase Parser.
  • Extrae todo el texto en TextReader usando el método GetText.
  • Usa el texto como quieras.

El siguiente código fuente de C# extrae el contenido textual del archivo MD.

// Extraiga el texto completo del archivo Markdown
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Obtenga una licencia de API gratuita

Puede obtener una licencia temporal gratuita para usar la API sin las limitaciones de evaluación.

Conclusión

Para resumir, discutimos cómo extraer texto de los archivos de rebajas en C# con un ejemplo. Esto puede haberlo guiado a desarrollar su propia aplicación de extracción de texto o analizador de documentos como el Analizador de documentos en línea desarrollado por GroupDocs.

Puede obtener más información sobre el documento que analiza la API de .NET utilizando su documentación. La mejor manera de aprender es experimentar los ejemplos que están disponibles en GitHub. Contacta con nosotros para cualquier consulta a través del foro.

Ver también