在本文中,我們將討論如何在 Java 中以編程方式解析 PDF 文檔並從 PDF 表單中提取值。在很多情況下,我們有幾份填寫好的調查表或來自大量受眾的 PDF 格式的反饋。我們可以很容易地提取填充的數據值並將它們用於分析。現在讓我們直接閱讀這些 PDF 表單並在 Java 應用程序中提取填充的數據字段值。

解析 PDF 表單以在 Java 中提取值

用於從 PDF 表單解析和提取值的 Java API

GroupDocs 提供了一個文檔解析和數據提取 Java API,它支持的不僅僅是文字處理、演示文稿、電子表格、電子郵件、PDF、標記、電子書和存檔格式。除了文本和圖像的提取,API 還支持從支持的文檔格式 中提取元數據。 API 的顯著特徵之一是解析可填寫的 PDF 文檔並使用簡單的 Java 代碼從表單字段中提取值。

在接下來的示例中,我將使用提到的 API,即 GroupDocs.Parser for Java,因此我建議您準備好您的環境以實現該功能。您可以從 下載 部分下載最新的 JAR 文件,或者只需在基於 Maven 的 Java 應用程序中添加以下配置。有關 API 的詳細信息,請訪問 API 參考

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

在 Java 中從 PDF 表單字段中提取數據

以下是如何從 PDF 表單中提取字段值的簡單步驟。

  • 使用目標 PDF 表單初始化 Parser 對象。
  • 調用 parseForm 方法從 PDF 表單中獲取所有數據。
  • 遍歷採集到的數據,得到想要的字段值。

以下代碼顯示瞭如何解析 PDF 文檔並從 Java 中填寫的 PDF 表單字段中獲取值。

// 使用 GroupDocs.Parser 的 Java API 解析填寫的 PDF 表單以提取字段值
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// 從 PDF 表單中提取數據
DocumentData data = parser.parseForm();
// 迭代提取的 PDF 表單數據
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

結論

我希望 Java 開發人員現在熟悉解析 PDF 文檔以從 PDF 表單字段中提取文本值的簡單、精確和高效的方法。如果您有興趣了解有關 API 的基本和高級功能的更多信息,可以瀏覽 文檔

如有任何疑問,請聯繫支持@forum

也可以看看