Als programmeur hebben we vaak de eis om de tekst uit verschillende soorten documenten te halen. Eerder hebben we gesproken over het tellen van woorden in documenten, het extraheren van ZIP-archieven, het extraheren van afbeeldingen uit eBooks en het ontleden van PDF-formuliervelden. Vandaag leer je in dit artikel hoe je tekst kunt ontleden en extraheren uit Markdown-bestanden met behulp van C#.

Extraheer tekst uit MD-bestanden met C#.jpg

.NET API voor Markdown-tekstextractie

GroupDocs biedt zijn .NET API om documenten te ontleden en tekst te extraheren uit verschillende documentindelingen binnen de .NET-toepassingen. In dit artikel zullen we zijn GroupDocs.Parser for .NET gebruiken om tekst uit de MD-bestanden te extraheren met behulp van C#.

Bovendien ondersteunt de API het parseren van vele andere bestandsindelingen zoals tekstverwerkingsdocumenten (DOC, DOCX, …), spreadsheets (XLS, XLSX, …), presentaties (PPT, PPTX, …), eBooks (EPUB, FB2, …) , barcode-afbeeldingen (JPG, PNG, …) en vele andere die in de documentatie worden genoemd.

U kunt de DLL’s of het MSI-installatieprogramma downloaden van de downloadsectie of de API in uw .NET-toepassing installeren via NuGet.

PM> Install-Package GroupDocs.Parser

Extraheer tekst uit Markdown-bestand in C#

Hieronder volgen de stappen om de volledige tekstinhoud uit het markdown-bestand te extraheren met behulp van C#.

  • Laad het MD-bestand met behulp van de klasse Parser.
  • Extraheer de hele tekst in TextReader met behulp van de methode GetText.
  • Gebruik de tekst zoals je wilt.

De volgende C#-broncode extraheert de tekstuele inhoud van het MD-bestand.

// Pak de hele tekst van het Markdown-bestand uit
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Ontvang een gratis API-licentie

U kunt een gratis tijdelijke licentie krijgen om de API te gebruiken zonder de evaluatiebeperkingen.

Conclusie

Samenvattend hebben we met een voorbeeld besproken hoe tekst uit de markdown-bestanden in C# kan worden geëxtraheerd. Dit heeft u misschien geleid tot het ontwikkelen van uw eigen toepassing voor tekstextractie of documentparser, zoals de Online Document Parser ontwikkeld door GroupDocs.

U kunt meer te weten komen over de documentparsing van de .NET API met behulp van de bijbehorende documentatie. De beste manier om te leren is door de voorbeelden te ervaren die beschikbaar zijn op GitHub. Neem voor vragen contact met ons op via het forum.

Zie ook