Jako programista często mamy potrzebę wyodrębnienia tekstu z różnego rodzaju dokumentów. Wcześniej omawialiśmy liczenie słów w dokumentach, wyodrębnianie archiwów ZIP, wyodrębnianie obrazów z eBooków i analizowanie pól formularzy PDF. Dzisiaj w tym artykule dowiesz się, jak analizować i wyodrębniać tekst z plików Markdown za pomocą języka C#.

Wyodrębnij tekst z plików MD za pomocą C#.jpg

Interfejs API platformy .NET do wyodrębniania tekstu Markdown

GroupDocs udostępnia interfejs API .NET do analizowania dokumentów i wyodrębniania tekstu z różnych formatów dokumentów w aplikacjach .NET. W tym artykule użyjemy jego GroupDocs.Parser for .NET do wyodrębnienia tekstu z plików MD przy użyciu języka C#.

Ponadto API obsługuje parsowanie wielu innych formatów plików, takich jak dokumenty tekstowe (DOC, DOCX, …), arkusze kalkulacyjne (XLS, XLSX, …), prezentacje (PPT, PPTX,…), eBooki (EPUB, FB2, …) , obrazy kodów kreskowych (JPG, PNG, …) i wiele innych wymienionych w dokumentacji.

Możesz pobrać instalator bibliotek DLL lub MSI z sekcji pobierania lub zainstalować interfejs API w swojej aplikacji .NET za pośrednictwem NuGet.

PM> Install-Package GroupDocs.Parser

Wyodrębnij tekst z pliku Markdown w C#

Poniżej przedstawiono kroki, aby wyodrębnić całą zawartość tekstową z pliku przeceny przy użyciu języka C#.

  • Załaduj plik MD przy użyciu klasy Parser.
  • Wyodrębnij cały tekst do TextReadera za pomocą metody GetText.
  • Użyj tekstu, jak chcesz.

Poniższy kod źródłowy języka C# wyodrębnia zawartość tekstową pliku MD.

// Wyodrębnij cały tekst pliku Markdown
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Uzyskaj bezpłatną licencję API

Możesz uzyskać bezpłatną tymczasową licencję na korzystanie z API bez ograniczeń ewaluacyjnych.

Wniosek

Podsumowując, omówiliśmy na przykładzie, jak wyodrębnić tekst z plików markdown w C#. Mogło to zainspirować Cię do opracowania własnej aplikacji do wyodrębniania tekstu lub parsera dokumentów, takiej jak Online Document Parser opracowany przez GroupDocs.

Możesz dowiedzieć się więcej o parsowaniu dokumentu .NET API, korzystając z jego dokumentacji. Najlepszym sposobem na naukę jest zapoznanie się z przykładami dostępnymi na GitHub. Skontaktuj się z nami w przypadku jakichkolwiek pytań za pośrednictwem forum.

Zobacz też