In dit artikel bespreken we hoe u PDF-documenten kunt ontleden en programmatisch waarden kunt extraheren uit PDF-formulieren in Java. Er zijn veel situaties waarin we verschillende ingevulde enquêteformulieren of feedback in PDF-formaat hebben van een groot publiek. We kunnen de ingevulde gegevenswaarden eenvoudig extraheren en gebruiken voor analyse. Laten we nu meteen doorgaan met het lezen van deze PDF-formulieren en de ingevulde gegevensveldwaarden extraheren binnen Java-toepassingen.

Pdf-formulier parseren om waarden in Java te extraheren

Java API om waarden uit PDF-formulieren te ontleden en te extraheren

GroupDocs biedt een Java API voor documentparsing en gegevensextractie die veel meer ondersteunt dan alleen tekstverwerking, presentaties, spreadsheets, e-mails, pdf, markeringen, e-boeken en archiefindelingen. Naast de extractie van tekst en afbeeldingen ondersteunt de API ook de extractie van metadata uit de ondersteunde documentformaten. Een van de opvallende kenmerken van de API is het ontleden van de invulbare PDF-documenten en het extraheren van waarden uit de formuliervelden met eenvoudige Java-code.

In de komende voorbeelden zal ik de genoemde API gebruiken, namelijk GroupDocs.Parser for Java, dus ik raad u aan uw omgeving voor te bereiden om de functie te implementeren. U kunt het nieuwste JAR-bestand downloaden van de sectie downloads of gewoon de volgende configuraties toevoegen aan uw op Maven gebaseerde Java-toepassingen. Ga voor meer informatie over API naar API-referentie.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Extraheer gegevens uit het PDF-formulierveld in Java

De volgende eenvoudige stappen voor het extraheren van veldwaarden uit een PDF-formulier.

  • Initialiseer het Parser-object met het PDF-doelformulier.
  • Roep de methode parseForm aan om alle gegevens uit het PDF-formulier te halen.
  • Doorloop de verzamelde gegevens om de gewenste veldwaarden te krijgen.

De volgende code laat zien hoe u een PDF-document kunt ontleden en waarden kunt ophalen uit de ingevulde PDF-formuliervelden in Java.

// Parseer het ingevulde PDF-formulier om veldwaarden te extraheren met de Java API van GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// Extraheer gegevens uit PDF-formulier
DocumentData data = parser.parseForm();
// Herhaal de geëxtraheerde PDF-formuliergegevens
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Conclusie

Ik hoop dat Java-ontwikkelaars nu bekend zijn met de gemakkelijke, nauwkeurige en efficiënte manier om de PDF-documenten te ontleden om tekstwaarden uit de PDF-formuliervelden te extraheren. Als u meer wilt weten over de basis- en geavanceerde functies van de API, kunt u de documentatie raadplegen.

Neem bij vragen contact op met support @ forum.

Zie ook