Як програміст, ми часто маємо потребу отримати текст із різних видів документів. Раніше ми обговорювали підрахунок слів у документах, вилучення архівів ZIP, видобування зображень з електронних книг і аналіз полів форм PDF. Сьогодні в цій статті ви дізнаєтеся, як аналізувати та видобувати текст із файлів Markdown за допомогою C#.

Витягніть текст із файлів MD за допомогою C#.jpg

.NET API для вилучення тексту Markdown

GroupDocs надає свій .NET API для аналізу документів і вилучення тексту з різних форматів документів у програмах .NET. У цій статті ми використаємо його GroupDocs.Parser for .NET, щоб витягти текст із файлів MD за допомогою C#.

Крім того, API підтримує розбір багатьох інших форматів файлів, таких як текстові документи (DOC, DOCX, …), електронні таблиці (XLS, XLSX, …), презентації (PPT, PPTX, …), електронні книги (EPUB, FB2, …) , зображення штрих-кодів (JPG, PNG, …) і багато інших, згаданих у його документації.

Ви можете завантажити DLL або інсталятор MSI із розділу завантажень або встановити API у своїй програмі .NET за допомогою NuGet.

PM> Install-Package GroupDocs.Parser

Вилучення тексту з файлу Markdown у C#

Нижче наведено кроки для вилучення всього текстового вмісту з файлу розмітки за допомогою C#.

  • Завантажте файл MD за допомогою класу Parser.
  • Витягніть увесь текст у TextReader за допомогою методу GetText.
  • Використовуйте текст за бажанням.

Наведений нижче вихідний код C# витягує текстовий вміст файлу MD.

// Витягніть увесь текст файлу Markdown
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Отримайте безкоштовну ліцензію API

Ви можете отримати безкоштовну тимчасову ліцензію, щоб використовувати API без оціночних обмежень.

Висновок

Підводячи підсумок, ми обговорили, як витягти текст із файлів розмітки в C# на прикладі. Можливо, це підштовхнуло вас до розробки власної програми для вилучення тексту чи аналізатора документів, наприклад Online Document Parser, розробленої GroupDocs.

Ви можете дізнатися більше про аналіз документів .NET API, використовуючи його документацію. Найкращий спосіб навчитися – ознайомитися з прикладами, доступними на GitHub. Зв’яжіться з нами для будь-якого запиту через форум.

Дивись також