In diesem Artikel werden wir diskutieren, wie man PDF-Dokumente parst und Werte aus PDF-Formularen programmgesteuert in Java extrahiert**. Es gibt viele Situationen, in denen wir mehrere ausgefüllte Umfrageformulare oder Feedbacks im PDF-Format von einem großen Publikum haben. Wir können die ausgefüllten Datenwerte einfach extrahieren und für die Analyse verwenden. Lassen Sie uns nun direkt zum Lesen dieser PDF-Formulare übergehen und gefüllte Datenfeldwerte in Java-Anwendungen extrahieren.

PDF-Formular analysieren, um Werte in Java zu extrahieren

Java-API zum Analysieren und Extrahieren von Werten aus PDF-Formularen

GroupDocs bietet eine Dokumentparsing- und Datenextraktions-Java-API, die viel mehr unterstützt als Textverarbeitung, Präsentationen, Tabellenkalkulationen, E-Mails, PDF, Markup, E-Books und Archivformate. Neben der Extraktion von Text und Bildern unterstützt die API auch die Extraktion von Metadaten aus den unterstützten Dokumentformaten. Eines der herausragenden Merkmale der API ist das Parsen der ausfüllbaren PDF-Dokumente und das Extrahieren von Werten aus den Formularfeldern mit einfachem Java-Code.

In den kommenden Beispielen werde ich die erwähnte API verwenden, dh GroupDocs.Parser for Java, daher würde ich Ihnen empfehlen, Ihre Umgebung für die Implementierung der Funktion vorzubereiten. Sie können die neueste JAR-Datei aus dem Abschnitt downloads herunterladen oder einfach die folgenden Konfigurationen in Ihren Maven-basierten Java-Anwendungen hinzufügen. Einzelheiten zur API finden Sie unter API-Referenz.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Extrahieren Sie Daten aus dem PDF-Formularfeld in Java

Die folgenden einfachen Schritte zum Extrahieren von Feldwerten aus einem PDF-Formular.

  • Initialisieren Sie das Parser-Objekt mit dem Ziel-PDF-Formular.
  • Rufen Sie die Methode parseForm auf, um alle Daten aus dem PDF-Formular abzurufen.
  • Durchlaufen Sie die gesammelten Daten, um die gewünschten Feldwerte zu erhalten.

Der folgende Code zeigt, wie man ein PDF-Dokument analysiert und Werte aus den ausgefüllten PDF-Formularfeldern in Java erhält.

// Analysieren Sie das ausgefüllte PDF-Formular, um Feldwerte mithilfe der Java-API von GroupDocs.Parser zu extrahieren
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// Daten aus PDF-Formular extrahieren
DocumentData data = parser.parseForm();
// Iterieren Sie über die extrahierten PDF-Formulardaten
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Fazit

Ich hoffe, Java-Entwickler sind jetzt mit der einfachen, präzisen und effizienten Methode vertraut, PDF-Dokumente zu parsen, um Textwerte aus den PDF-Formularfeldern zu extrahieren. Wenn Sie mehr über die grundlegenden und erweiterten Funktionen der API erfahren möchten, können Sie die Dokumentation durchsuchen.

Wenden Sie sich bei Fragen an den Support @ forum.

Siehe auch