Neste artigo, discutiremos como analisar documentos PDF e extrair valores de formulários PDF programaticamente em Java. Existem muitas situações em que temos vários formulários de pesquisa preenchidos ou feedbacks em formato PDF de um grande público. Podemos extrair facilmente os valores de dados preenchidos e usá-los para análise. Vamos agora seguir direto para a leitura desses formulários PDF e extrair valores de campos de dados preenchidos em aplicativos Java.

Analisar formulário PDF para extrair valores em Java

API Java para analisar e extrair valores de formulários PDF

O GroupDocs oferece uma API Java de análise de documentos e extração de dados que oferece suporte a muito mais do que processamento de texto, apresentações, planilhas, e-mails, PDF, marcação, e-books e formatos de arquivo. Juntamente com a extração de texto e imagens, a API também suporta a extração de metadados dos formatos de documento suportados. Um dos principais recursos da API é analisar os documentos PDF preenchíveis e extrair valores dos campos do formulário com código Java fácil.

Nos próximos exemplos, usarei a API mencionada, ou seja, GroupDocs.Parser for Java, portanto, recomendo que você prepare seu ambiente para implementar o recurso. Você pode baixar o arquivo JAR mais recente da seção downloads ou apenas adicionar as seguintes configurações em seus aplicativos Java baseados em Maven. Para obter detalhes sobre a API, visite Referência da API.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Extrair dados do campo de formulário PDF em Java

As etapas simples a seguir sobre como extrair valores de campo do formulário PDF.

  • Inicialize o objeto Parser com o formulário PDF de destino.
  • Chame o método parseForm para obter todos os dados do formulário PDF.
  • Percorra os dados coletados para obter os valores de campo desejados.

O código a seguir mostra como analisar um documento PDF e obter valores dos campos de formulário PDF preenchidos em Java.

// Analise o formulário PDF preenchido para extrair valores de campo usando a API Java do GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// Extrair dados do formulário PDF
DocumentData data = parser.parseForm();
// Iterar sobre os dados extraídos do formulário PDF
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Conclusão

Espero que os desenvolvedores Java estejam familiarizados com a maneira fácil, precisa e eficiente de analisar os documentos PDF para extrair valores de texto dos campos de formulário PDF. Se você estiver interessado em saber mais sobre os recursos básicos e avançados da API, explore a documentação.

Em caso de dúvidas, contate o suporte @ fórum.

Veja também