Als Programmierer haben wir oft die Anforderung, den Text aus verschiedenen Arten von Dokumenten zu extrahieren. Zuvor haben wir das Zählen von Wörtern in Dokumenten, das Extrahieren von ZIP-Archiven, das Extrahieren von Bildern aus eBooks und das Parsen von PDF-Formularfeldern besprochen. Heute erfahren Sie in diesem Artikel, wie Sie mit C# Text aus Markdown-Dateien parsen und extrahieren.

Extrahieren Sie Text aus MD-Dateien mit C#.jpg

.NET-API für Markdown-Textextraktion

GroupDocs stellt seine .NET-API bereit, um Dokumente zu parsen und Text aus verschiedenen Dokumentformaten innerhalb der .NET-Anwendungen zu extrahieren. In diesem Artikel verwenden wir seinen GroupDocs.Parser for .NET, um Text aus den MD-Dateien mit C# zu extrahieren.

Darüber hinaus unterstützt die API das Parsen vieler anderer Dateiformate wie Textverarbeitungsdokumente (DOC, DOCX, …), Tabellenkalkulationen (XLS, XLSX, …), Präsentationen (PPT, PPTX, …), eBooks (EPUB, FB2, …) , Barcode-Bilder (JPG, PNG, …) und viele andere, die in der Dokumentation erwähnt werden.

Sie können die DLLs oder das MSI-Installationsprogramm aus dem Download-Bereich herunterladen oder die API in Ihrer .NET-Anwendung über NuGet installieren.

PM> Install-Package GroupDocs.Parser

Text aus Markdown-Datei in C# extrahieren

Im Folgenden sind die Schritte zum Extrahieren des gesamten Textinhalts aus der Markdown-Datei mit C# aufgeführt.

  • Laden Sie die MD-Datei mit der Klasse Parser.
  • Extrahieren Sie den gesamten Text mit der GetText-Methode in TextReader.
  • Verwenden Sie den Text nach Belieben.

Der folgende C#-Quellcode extrahiert den Textinhalt der MD-Datei.

// Extrahieren Sie den gesamten Text der Markdown-Datei
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Holen Sie sich eine kostenlose API-Lizenz

Sie können eine kostenlose temporäre Lizenz erhalten, um die API ohne die Evaluierungseinschränkungen zu verwenden.

Fazit

Zusammenfassend haben wir anhand eines Beispiels besprochen, wie Text aus den Markdown-Dateien in C# extrahiert werden kann. Dies hat Sie möglicherweise dazu veranlasst, Ihre eigene Textextraktions- oder Dokumentparseranwendung wie den von GroupDocs entwickelten Online Document Parser zu entwickeln.

Sie können mehr über die .NET-API zum Analysieren von Dokumenten erfahren, indem Sie ihre Dokumentation verwenden. Der beste Weg, um zu lernen, besteht darin, die Beispiele zu erleben, die auf GitHub verfügbar sind. Kontaktieren Sie uns bei Fragen über das Forum.

Siehe auch