En este artículo, discutiremos cómo analizar documentos PDF y extraer valores de formularios PDF mediante programación en Java. Hay muchas situaciones en las que tenemos varios formularios de encuestas rellenados o comentarios en formato PDF de una gran audiencia. Podemos extraer fácilmente los valores de datos completos y usarlos para el análisis. Avancemos ahora directamente hacia la lectura de estos formularios PDF y extraigamos los valores de los campos de datos completos dentro de las aplicaciones Java.

Parse PDF Form para extraer valores en Java

API de Java para analizar y extraer valores de formularios PDF

GroupDocs ofrece una API Java de análisis de documentos y extracción de datos que admite mucho más que procesamiento de textos, presentaciones, hojas de cálculo, correos electrónicos, PDF, marcas, libros electrónicos y formatos de archivo. Junto con la extracción de texto e imágenes, la API también admite la extracción de metadatos de los formatos de documentos admitidos. Una de las características más destacadas de la API es analizar los documentos PDF rellenables y extraer valores de los campos del formulario con un sencillo código Java.

En los próximos ejemplos, utilizaré la API mencionada, es decir, GroupDocs.Parser for Java, por lo que le recomendaría que prepare su entorno para implementar la función. Puede descargar el archivo JAR más reciente desde la sección descargas o simplemente agregar las siguientes configuraciones en sus aplicaciones Java basadas en Maven. Para obtener detalles sobre la API, visite Referencia de la API.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Extraer datos del campo de formulario PDF en Java

Los siguientes pasos simples sobre cómo extraer valores de campo del formulario PDF.

  • Inicialice el objeto Parser con el formulario PDF de destino.
  • Llame al método parseForm para obtener todos los datos del formulario PDF.
  • Recorra los datos recopilados para obtener los valores de campo deseados.

El siguiente código muestra cómo analizar un documento PDF y obtener valores de los campos de formulario PDF completados en Java.

// Analice el formulario PDF completo para extraer valores de campo utilizando la API de Java de GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// Extraer datos del formulario PDF
DocumentData data = parser.parseForm();
// Iterar sobre los datos del formulario PDF extraído
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Conclusión

Espero que los desarrolladores de Java ahora estén familiarizados con la manera fácil, precisa y eficiente de analizar los documentos PDF para extraer valores de texto de los campos de formulario PDF. Si está interesado en obtener más información sobre las funciones básicas y avanzadas de la API, puede explorar la documentación.

En caso de cualquier consulta, comuníquese con soporte @ foro.

Ver también