在本文中,我们将讨论如何在 Java 中以编程方式解析 PDF 文档并从 PDF 表单中提取值。在很多情况下,我们会收到大量填写的调查表或 PDF 格式的反馈。我们可以轻松提取填充的数据值并将其用于分析。现在让我们直接阅读这些 PDF 表单并在 Java 应用程序中提取填充的数据字段值。
用于从 PDF 表单解析和提取值的 Java API
GroupDocs 提供 文档解析和数据提取 Java API,它支持的不仅仅是文字处理、演示文稿、电子表格、电子邮件、PDF、标记、电子书和存档格式。除了提取文本和图像外,API 还支持从 支持的文档格式 中提取元数据。 API 的显着特点之一是使用简单的 Java 代码解析可填写的 PDF 文档并从表单字段中提取值。
在接下来的示例中,我将使用提到的 API 即 GroupDocs.Parser for Java,因此我建议您准备好您的环境来实现该功能。您可以从 下载 部分下载最新的 JAR 文件,或者在基于 Maven 的 Java 应用程序中添加以下配置。有关 API 的详细信息,请访问 API 参考。
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>20.8</version>
</dependency>
从 Java 中的 PDF 表单字段中提取数据
以下是如何从 PDF 表单中提取字段值的简单步骤。
以下代码显示了如何解析 PDF 文档并从 Java 中填充的 PDF 表单字段中获取值。
// 使用 GroupDocs.Parser 的 Java API 解析填充的 PDF 表单以提取字段值
Parser parser = new Parser("filePath/PDFForm.pdf");
// 从 PDF 表单中提取数据
DocumentData data = parser.parseForm();
// 迭代提取的 PDF 表单数据
for (int i = 0; i < data.getCount(); i++) {
System.out.print(data.get(i).getName() + ": ");
PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
? (PageTextArea) data.get(i).getPageArea()
: null;
System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia
结论
我希望,Java 开发人员现在已经熟悉了解析 PDF 文档以从 PDF 表单字段中提取文本值的简单、精确和高效的方法。如果您有兴趣了解更多有关 API 的基本和高级功能的信息,可以浏览 文档。
如有任何疑问,请联系@ 论坛 支持。