Jako programátoři máme často požadavek získat text extrahovaný z různých druhů dokumentů. Dříve jsme diskutovali o počítání slov v dokumentech, extrahování archivů ZIP, extrahování obrázků z elektronických knih a analýze polí formuláře PDF. Dnes se v tomto článku dozvíte, jak analyzovat a extrahovat text ze souborů Markdown pomocí C#.

Extrahujte text ze souborů MD pomocí C#.jpg

.NET API pro extrakci textu Markdown

GroupDocs poskytuje své .NET API pro analýzu dokumentů a extrahování textu z různých formátů dokumentů v rámci aplikací .NET. V tomto článku použijeme jeho GroupDocs.Parser for .NET k extrahování textu ze souborů MD pomocí C#.

Kromě toho API podporuje analýzu mnoha dalších formátů souborů, jako jsou dokumenty pro zpracování textu (DOC, DOCX, …), tabulky (XLS, XLSX, …), prezentace (PPT, PPTX, …), elektronické knihy (EPUB, FB2, …) , obrázky čárových kódů (JPG, PNG, …) a mnoho dalších zmíněných v dokumentaci.

Můžete si stáhnout DLL nebo instalační program MSI z části ke stažení nebo nainstalovat API do vaší aplikace .NET prostřednictvím NuGet.

PM> Install-Package GroupDocs.Parser

Extrahujte text ze souboru Markdown v C#

Následují kroky k extrahování celého textového obsahu ze souboru markdown pomocí C#.

  • Načtěte soubor MD pomocí třídy Parser.
  • Extrahujte celý text do TextReaderu pomocí metody GetText.
  • Použijte text, jak chcete.

Následující zdrojový kód C# extrahuje textový obsah souboru MD.

// Extrahujte celý text souboru Markdown
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Získejte bezplatnou licenci API

Můžete získat bezplatnou dočasnou licenci k používání API bez omezení hodnocení.

Závěr

Abych to shrnul, diskutovali jsme na příkladu, jak extrahovat text ze souborů markdown v C#. To vás mohlo vést k vývoji vlastní aplikace pro extrakci textu nebo analyzátor dokumentů, jako je Online Document Parser vyvinutý společností GroupDocs.

Můžete se dozvědět více o analýze dokumentu .NET API pomocí jeho dokumentace. Nejlepší způsob, jak se naučit, je vyzkoušet si příklady, které jsou k dispozici na GitHub. Kontaktujte nás s jakýmkoli dotazem prostřednictvím fóra.

Viz také