In questo articolo, discuteremo di come analizzare un documento PDF ed estrarre valori dai moduli PDF in modo programmatico in Java. Ci sono molte situazioni in cui abbiamo diversi moduli di sondaggio compilati o feedback in formato PDF da un vasto pubblico. Possiamo facilmente estrarre i valori dei dati inseriti e usarli per l’analisi. Passiamo ora direttamente alla lettura di questi moduli PDF ed estraiamo i valori dei campi di dati riempiti all’interno delle applicazioni Java.

Analizza il modulo PDF per estrarre i valori in Java

API Java per analizzare ed estrarre valori da moduli PDF

GroupDocs offre una API Java per l’analisi dei documenti e l’estrazione dei dati che supporta molto di più di elaborazione di testi, presentazioni, fogli di calcolo, e-mail, PDF, markup, ebook e formati di archivio. Oltre all’estrazione di testo e immagini, l’API supporta anche l’estrazione di metadati dai formati di documento supportati. Una delle caratteristiche salienti dell’API è quella di analizzare i documenti PDF compilabili ed estrarre i valori dai campi del modulo con un semplice codice Java.

Nei prossimi esempi, utilizzerò l’API menzionata, ad esempio GroupDocs.Parser per Java, quindi ti consiglierei di preparare il tuo ambiente per implementare la funzionalità. Puoi scaricare l’ultimo file JAR dalla sezione download o semplicemente aggiungere le seguenti configurazioni nelle tue applicazioni Java basate su Maven. Per i dettagli sull’API, visita API Reference.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Estrai dati dal campo modulo PDF in Java

I seguenti semplici passaggi su come estrarre i valori dei campi dal modulo PDF.

  • Inizializza l’oggetto Parser con il modulo PDF di destinazione.
  • Chiama il metodo parseForm per ottenere tutti i dati dal modulo PDF.
  • Attraversa i dati raccolti per ottenere i valori di campo desiderati.

Il codice seguente mostra come analizzare il documento PDF e ottenere valori dai campi del modulo PDF compilati in Java.

// Analizza il modulo PDF compilato per estrarre i valori dei campi utilizzando l'API Java di GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// Estrai i dati dal modulo PDF
DocumentData data = parser.parseForm();
// Iterare sui dati del modulo PDF estratto
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Conclusione

Spero che gli sviluppatori Java ora abbiano familiarità con il modo semplice, preciso ed efficiente per analizzare i documenti PDF per estrarre valori di testo dai campi del modulo PDF. Se sei interessato a saperne di più sulle funzionalità di base e avanzate dell’API, puoi esplorare la documentazione.

In caso di domande, contatta il supporto @ forum.

Guarda anche