開発者は、多くの場合、さまざまなドキュメントからテキストを抽出する必要があります。 ZIP アーカイブの抽出、ドキュメント内の単語のカウント、電子書籍からの画像の抽出、およびその他の解析方法については既に説明しました。今日、この記事では、Java で Markdown ファイルからテキストを解析して抽出する方法を学びます。

C#.jpg を使用して MD ファイルからテキストを抽出する

マークダウン テキスト抽出用の Java API

GroupDocs は、ドキュメントを解析してテキストを抽出するための Java API を Java アプリケーション内のさまざまなドキュメント形式から提供します。 API は、次のような多くのファイル形式の解析をサポートしています。

  • ワープロ文書: DOC、DOCX、…
  • スプレッドシート: XLS、XLSX、…
  • プレゼンテーション: PPT、PPTX、…。
  • 電子書籍: EPUB、FB2、…
  • バーコード画像: JPG、PNG、…
  • 完全なリストは ドキュメント に記載されています。

ただし、この記事では、GroupDocs.Parser for Java を使用して、Java を使用して MD ファイルからテキストのみを抽出します。

ダウンロード セクション から JAR ファイルをダウンロードするか、maven ベースの Java アプリケーションの pom.xml のリポジトリと依存関係の構成を取得します。

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Java で Markdown ファイルからテキストを抽出する

以下は、Java でマークダウン ファイルからテキスト コンテンツ全体を抽出する手順です。

  • Parser クラスを使用して MD ファイルを読み込みます。
  • getText メソッドを使用して、テキスト全体を TextReader に抽出します。
  • テキストはお好みでご利用ください。

次の Java ソース コードは、MD ファイルのテキスト コンテンツを抽出します。

// JavaでMarkdownファイルのテキスト全体を抽出する
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

無料の API ライセンスを取得する

無料の一時ライセンスを取得して、評価制限なしで API を使用できます。

結論

要約すると、この記事では、Java でマークダウン ファイルからテキストを抽出する基本的かつ迅速な方法について説明しました。このアプローチにより、GroupDocs によって開発された Online Document Parser のようなテキスト抽出およびドキュメント パーサー アプリケーションを開発することを考えるようになったかもしれません。

ドキュメンテーション を使用して、Java API のドキュメント解析について詳しく知ることができます。 GitHub で入手できるサンプルを体験することで、すばやく学習できます。 フォーラムからお問い合わせください。

関連項目