Как программисту, нам часто требуется извлекать текст из различных видов документов. Ранее мы обсуждали подсчет слов в документах, извлечение ZIP-архивов, извлечение изображений из электронных книг и анализ полей формы PDF. Сегодня в этой статье вы узнаете, как анализировать и извлекать текст из файлов Markdown с помощью C#.

Извлечение текста из файлов MD с помощью C#.jpg

.NET API для извлечения текста Markdown

GroupDocs предоставляет свой .NET API для анализа документов и извлечения текста из различных форматов документов в приложениях .NET. В этой статье мы будем использовать его GroupDocs.Parser for .NET для извлечения текста из файлов MD с помощью C#.

Кроме того, API поддерживает синтаксический анализ файлов многих других форматов, таких как текстовые документы (DOC, DOCX, …), электронные таблицы (XLS, XLSX, …), презентации (PPT, PPTX, …), электронные книги (EPUB, FB2, …) , изображения штрих-кода (JPG, PNG, …) и многие другие, упомянутые в его документации.

Вы можете загрузить библиотеки DLL или установщик MSI из раздела загрузок или установить API в своем приложении .NET через NuGet.

PM> Install-Package GroupDocs.Parser

Извлечь текст из файла Markdown в С#

Ниже приведены шаги для извлечения всего текстового содержимого из файла уценки с помощью C#.

  • Загрузите файл MD с помощью класса Parser.
  • Извлеките весь текст в TextReader с помощью метода GetText.
  • Используйте текст по своему усмотрению.

Следующий исходный код C# извлекает текстовое содержимое файла MD.

// Извлечь весь текст файла Markdown
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Получите бесплатную лицензию API

Вы можете получить бесплатную временную лицензию, чтобы использовать API без ограничений пробной версии.

Вывод

Подводя итог, мы обсудили, как извлечь текст из файлов уценки в C# на примере. Возможно, это побудило вас разработать собственное приложение для извлечения текста или анализа документов, например онлайн-анализатор документов, разработанное GroupDocs.

Вы можете узнать больше об анализе документов .NET API, используя его документацию. Лучший способ научиться — использовать примеры, доступные на GitHub. Свяжитесь с нами по любому вопросу через форум.

Смотрите также