Java で Markdown ファイルからテキストを抽出する |マークダウンエクストラクタ

開発者は、多くの場合、さまざまなドキュメントからテキストを抽出する必要があります。 ZIP アーカイブの抽出、ドキュメント内の単語のカウント、電子書籍からの画像の抽出、およびその他の解析方法については既に説明しました。今日、この記事では、Java で Markdown ファイルからテキストを解析して抽出する方法を学びます。

マークダウンテキスト抽出用の Java API

GroupDocs は、ドキュメントを解析してテキストを抽出するための Java API を Java アプリケーション内のさまざまなドキュメント形式から提供します。 API は、次のような多くのファイル形式の解析をサポートしています。

ワープロ文書: DOC、DOCX、…
スプレッドシート: XLS、XLSX、…
プレゼンテーション: PPT、PPTX、…。
電子書籍: EPUB、FB2、…
バーコード画像: JPG、PNG、…
完全なリストはドキュメントに記載されています。

ただし、この記事では、GroupDocs.Parser for Java を使用して、Java を使用して MD ファイルからテキストのみを抽出します。

ダウンロードセクションから JAR ファイルをダウンロードするか、maven ベースの Java アプリケーションの pom.xml のリポジトリと依存関係の構成を取得します。

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Java で Markdown ファイルからテキストを抽出する

以下は、Java でマークダウンファイルからテキストコンテンツ全体を抽出する手順です。

Parser クラスを使用して MD ファイルを読み込みます。
getText メソッドを使用して、テキスト全体を TextReader に抽出します。
テキストはお好みでご利用ください。

次の Java ソースコードは、MD ファイルのテキストコンテンツを抽出します。

// JavaでMarkdownファイルのテキスト全体を抽出する
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

無料の API ライセンスを取得する

無料の一時ライセンスを取得して、評価制限なしで API を使用できます。

結論

要約すると、この記事では、Java でマークダウンファイルからテキストを抽出する基本的かつ迅速な方法について説明しました。このアプローチにより、GroupDocs によって開発された Online Document Parser のようなテキスト抽出およびドキュメントパーサーアプリケーションを開発することを考えるようになったかもしれません。

ドキュメンテーションを使用して、Java API のドキュメント解析について詳しく知ることができます。 GitHub で入手できるサンプルを体験することで、すばやく学習できます。フォーラムからお問い合わせください。

マークダウン テキスト抽出用の Java API#

Java で Markdown ファイルからテキストを抽出する#

無料の API ライセンスを取得する#

結論#

関連項目#

マークダウンテキスト抽出用の Java API

Java で Markdown ファイルからテキストを抽出する

無料の API ライセンスを取得する

結論

関連項目