この記事では、** JavaでプログラムによってPDFドキュメントを解析し、PDFフォームから値を抽出する方法**について説明します。多くの状況で、多数の聴衆からのPDF形式のいくつかの記入済み調査フォームまたはフィードバックがあります。埋められたデータ値を簡単に抽出して分析に使用できます。次に、これらのPDFフォームを読み、Javaアプリケーション内で入力されたデータフィールド値を抽出します。

PDFフォームを解析してJavaで値を抽出する

PDFフォームから値を解析および抽出するJavaAPI

** GroupDocs は、ワードプロセッシング、プレゼンテーション、スプレッドシート、電子メール、PDF、マークアップ、電子書籍、アーカイブ形式以上のものをサポートするドキュメント解析およびデータ抽出JavaAPIを提供します。 APIは、テキストと画像の抽出に加えて、サポートされているドキュメント形式からのメタデータの抽出もサポートしています。 APIの顕著な特徴の1つは、簡単なJavaコードを使用して入力可能なPDFドキュメントを解析し、フォームフィールドから値を抽出**することです。

次の例では、前述のAPI、つまり** GroupDocs.Parser for Java **を使用するため、この機能を実装するための環境を準備することをお勧めします。 ダウンロードセクションから最新のJARファイルをダウンロードするか、MavenベースのJavaアプリケーションに次の構成を追加することができます。 APIの詳細については、APIリファレンスをご覧ください。

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

JavaのPDFフォームフィールドからデータを抽出する

PDFフォームからフィールド値を抽出する方法については、次の簡単な手順をご覧ください。

  • ** Parser**オブジェクトをターゲットPDFフォームで初期化します。
  • ** parseForm **メソッドを呼び出して、PDFフォームからすべてのデータを取得します。
  • 収集したデータをトラバースして、目的のフィールド値を取得します。

次のコードは、PDFドキュメントを解析し、Javaで入力されたPDFフォームフィールドから値を取得する方法を示しています。

// 記入済みのPDFフォームを解析し、GroupDocs.ParserのJavaAPIを使用してフィールド値を抽出します
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// PDFフォームからデータを抽出する
DocumentData data = parser.parseForm();
// 抽出されたPDFフォームデータを繰り返し処理します
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

結論

Java開発者が、PDFドキュメントを解析してPDFフォームフィールドからテキスト値を抽出するための簡単、正確、かつ効率的な方法に慣れていることを願っています。 APIの基本機能と高度な機能について詳しく知りたい場合は、ドキュメントをご覧ください。

質問がある場合は、support @forumに連絡してください。

関連項目