C# を使用して Markdown ファイルからテキストを抽出する |マークダウンエクストラクタ

プログラマーは、さまざまな種類のドキュメントからテキストを抽出する必要があることがよくあります。以前、ドキュメント内の単語のカウント、ZIP アーカイブの抽出、電子書籍からの画像の抽出、PDF フォームフィールドの解析について説明しました。今日、この記事では、C# を使用して Markdown ファイルからテキストを解析および抽出する方法を学習します。

マークダウンテキスト抽出用の .NET API

GroupDocs は、ドキュメントを解析し、.NET アプリケーション内のさまざまなドキュメント形式からテキストを抽出する .NET API を提供します。この記事では、GroupDocs.Parser for .NET を使用して、C# を使用して MD ファイルからテキストを抽出します。

さらに、API は、ワードプロセッシングドキュメント (DOC、DOCX など)、スプレッドシート (XLS、XLSX など)、プレゼンテーション (PPT、PPTX など)、電子書籍 (EPUB、FB2 など) など、他の多くのファイル形式の解析をサポートしています。、バーコード画像 (JPG、PNG、…)、およびそのドキュメントに記載されている他の多くの画像。

ダウンロードセクションから DLL または MSI インストーラーをダウンロードするか、NuGet 経由で .NET アプリケーションに API をインストールできます。

PM> Install-Package GroupDocs.Parser

C# で Markdown ファイルからテキストを抽出する

以下は、C# を使用してマークダウンファイルからテキストコンテンツ全体を抽出する手順です。

Parser クラスを使用して MD ファイルを読み込みます。
GetText メソッドを使用して、テキスト全体を TextReader に抽出します。
テキストはお好みでご利用ください。

次の C# ソースコードは、MD ファイルのテキストコンテンツを抽出します。

// Markdown ファイルのテキスト全体を抽出する
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

無料の API ライセンスを取得する

無料の一時ライセンスを取得して、評価制限なしで API を使用できます。

結論

要約すると、C# でマークダウンファイルからテキストを抽出する方法について、例を挙げて説明しました。これにより、GroupDocs によって開発されたオンラインドキュメントパーサーのような独自のテキスト抽出またはドキュメントパーサーアプリケーションを開発するようになった可能性があります。

ドキュメントを使用して、.NET API を解析するドキュメントについて詳しく知ることができます。学習するための最良の方法は、GitHub で入手できる例を体験することです。フォーラムからお問い合わせください。

マークダウン テキスト抽出用の .NET API#

C# で Markdown ファイルからテキストを抽出する#

無料の API ライセンスを取得する#

結論#

関連項目#

マークダウンテキスト抽出用の .NET API

C# で Markdown ファイルからテキストを抽出する

無料の API ライセンスを取得する

結論

関連項目