この記事では、** JavaでプログラムによってPDFドキュメントを解析し、PDFフォームから値を抽出する方法**について説明します。多くの状況で、多数の聴衆からのPDF形式のいくつかの記入済み調査フォームまたはフィードバックがあります。埋められたデータ値を簡単に抽出して分析に使用できます。次に、これらのPDFフォームを読み、Javaアプリケーション内で入力されたデータフィールド値を抽出します。

PDFフォームから値を解析および抽出するJavaAPI
** GroupDocs は、ワードプロセッシング、プレゼンテーション、スプレッドシート、電子メール、PDF、マークアップ、電子書籍、アーカイブ形式以上のものをサポートするドキュメント解析およびデータ抽出JavaAPIを提供します。 APIは、テキストと画像の抽出に加えて、サポートされているドキュメント形式からのメタデータの抽出もサポートしています。 APIの顕著な特徴の1つは、簡単なJavaコードを使用して入力可能なPDFドキュメントを解析し、フォームフィールドから値を抽出**することです。
次の例では、前述のAPI、つまり** GroupDocs.Parser for Java **を使用するため、この機能を実装するための環境を準備することをお勧めします。 ダウンロードセクションから最新のJARファイルをダウンロードするか、MavenベースのJavaアプリケーションに次の構成を追加することができます。 APIの詳細については、APIリファレンスをご覧ください。
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>20.8</version>
</dependency>
JavaのPDFフォームフィールドからデータを抽出する
PDFフォームからフィールド値を抽出する方法については、次の簡単な手順をご覧ください。
- ** Parser**オブジェクトをターゲットPDFフォームで初期化します。
- ** parseForm **メソッドを呼び出して、PDFフォームからすべてのデータを取得します。
- 収集したデータをトラバースして、目的のフィールド値を取得します。
次のコードは、PDFドキュメントを解析し、Javaで入力されたPDFフォームフィールドから値を取得する方法を示しています。
// 記入済みのPDFフォームを解析し、GroupDocs.ParserのJavaAPIを使用してフィールド値を抽出します
Parser parser = new Parser("filePath/PDFForm.pdf");
// PDFフォームからデータを抽出する
DocumentData data = parser.parseForm();
// 抽出されたPDFフォームデータを繰り返し処理します
for (int i = 0; i < data.getCount(); i++) {
System.out.print(data.get(i).getName() + ": ");
PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
? (PageTextArea) data.get(i).getPageArea()
: null;
System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia
結論
Java開発者が、PDFドキュメントを解析してPDFフォームフィールドからテキスト値を抽出するための簡単、正確、かつ効率的な方法に慣れていることを願っています。 APIの基本機能と高度な機能について詳しく知りたい場合は、ドキュメントをご覧ください。
質問がある場合は、support @forumに連絡してください。