Jako programista często mamy potrzebę wyodrębnienia tekstu z różnego rodzaju dokumentów. Wcześniej omawialiśmy liczenie słów w dokumentach, wyodrębnianie archiwów ZIP, wyodrębnianie obrazów z eBooków i analizowanie pól formularzy PDF. Dzisiaj w tym artykule dowiesz się, jak analizować i wyodrębniać tekst z plików Markdown za pomocą języka C#.

Interfejs API platformy .NET do wyodrębniania tekstu Markdown
GroupDocs udostępnia interfejs API .NET do analizowania dokumentów i wyodrębniania tekstu z różnych formatów dokumentów w aplikacjach .NET. W tym artykule użyjemy jego GroupDocs.Parser for .NET do wyodrębnienia tekstu z plików MD przy użyciu języka C#.
Ponadto API obsługuje parsowanie wielu innych formatów plików, takich jak dokumenty tekstowe (DOC, DOCX, …), arkusze kalkulacyjne (XLS, XLSX, …), prezentacje (PPT, PPTX,…), eBooki (EPUB, FB2, …) , obrazy kodów kreskowych (JPG, PNG, …) i wiele innych wymienionych w dokumentacji.
Możesz pobrać instalator bibliotek DLL lub MSI z sekcji pobierania lub zainstalować interfejs API w swojej aplikacji .NET za pośrednictwem NuGet.
PM> Install-Package GroupDocs.Parser
Wyodrębnij tekst z pliku Markdown w C#
Poniżej przedstawiono kroki, aby wyodrębnić całą zawartość tekstową z pliku przeceny przy użyciu języka C#.
- Załaduj plik MD przy użyciu klasy Parser.
- Wyodrębnij cały tekst do TextReadera za pomocą metody GetText.
- Użyj tekstu, jak chcesz.
Poniższy kod źródłowy języka C# wyodrębnia zawartość tekstową pliku MD.
// Wyodrębnij cały tekst pliku Markdown
using (Parser parser = new Parser("/path/document.md"))
{
using (TextReader reader = parser.GetText())
{
Console.WriteLine(reader.ReadToEnd());
}
}
Uzyskaj bezpłatną licencję API
Możesz uzyskać bezpłatną tymczasową licencję na korzystanie z API bez ograniczeń ewaluacyjnych.
Wniosek
Podsumowując, omówiliśmy na przykładzie, jak wyodrębnić tekst z plików markdown w C#. Mogło to zainspirować Cię do opracowania własnej aplikacji do wyodrębniania tekstu lub parsera dokumentów, takiej jak Online Document Parser opracowany przez GroupDocs.
Możesz dowiedzieć się więcej o parsowaniu dokumentu .NET API, korzystając z jego dokumentacji. Najlepszym sposobem na naukę jest zapoznanie się z przykładami dostępnymi na GitHub. Skontaktuj się z nami w przypadku jakichkolwiek pytań za pośrednictwem forum.