プログラマーは、さまざまな種類のドキュメントからテキストを抽出する必要があることがよくあります。以前、ドキュメント内の単語のカウント、ZIP アーカイブの抽出、電子書籍からの画像の抽出、PDF フォーム フィールドの解析について説明しました。今日、この記事では、C# を使用して Markdown ファイルからテキストを解析および抽出する方法を学習します。

C#.jpg を使用して MD ファイルからテキストを抽出する

マークダウン テキスト抽出用の .NET API

GroupDocs は、ドキュメントを解析し、.NET アプリケーション内のさまざまなドキュメント形式からテキストを抽出する .NET API を提供します。この記事では、GroupDocs.Parser for .NET を使用して、C# を使用して MD ファイルからテキストを抽出します。

さらに、API は、ワード プロセッシング ドキュメント (DOC、DOCX など)、スプレッドシート (XLS、XLSX など)、プレゼンテーション (PPT、PPTX など)、電子書籍 (EPUB、FB2 など) など、他の多くのファイル形式の解析をサポートしています。 、バーコード画像 (JPG、PNG、…)、およびそのドキュメントに記載されている他の多くの画像。

ダウンロード セクション から DLL または MSI インストーラーをダウンロードするか、NuGet 経由で .NET アプリケーションに API をインストールできます。

PM> Install-Package GroupDocs.Parser

C# で Markdown ファイルからテキストを抽出する

以下は、C# を使用してマークダウン ファイルからテキスト コンテンツ全体を抽出する手順です。

  • Parser クラスを使用して MD ファイルを読み込みます。
  • GetText メソッドを使用して、テキスト全体を TextReader に抽出します。
  • テキストはお好みでご利用ください。

次の C# ソース コードは、MD ファイルのテキスト コンテンツを抽出します。

// Markdown ファイルのテキスト全体を抽出する
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

無料の API ライセンスを取得する

無料の一時ライセンスを取得して、評価制限なしで API を使用できます。

結論

要約すると、C# でマークダウン ファイルからテキストを抽出する方法について、例を挙げて説明しました。これにより、GroupDocs によって開発された オンライン ドキュメント パーサー のような独自のテキスト抽出またはドキュメント パーサー アプリケーションを開発するようになった可能性があります。

ドキュメント を使用して、.NET API を解析するドキュメントについて詳しく知ることができます。学習するための最良の方法は、GitHub で入手できる例を体験することです。 フォーラムからお問い合わせください。

関連項目