W tym artykule omówimy, jak analizować dokument PDF i wyodrębniać wartości z formularzy PDF programowo w Javie. Istnieje wiele sytuacji, w których mamy kilka wypełnionych formularzy ankiet lub informacji zwrotnych w formacie PDF od dużej grupy odbiorców. Możemy łatwo wyodrębnić wypełnione wartości danych i wykorzystać je do analizy. Przejdźmy teraz od razu do czytania tych formularzy PDF i wyodrębniania wypełnionych wartości pól danych w aplikacjach Java.

Przeanalizuj formularz PDF, aby wyodrębnić wartości w Javie

Java API do analizowania i wyodrębniania wartości z formularzy PDF

GroupDocs oferuje API Java do analizowania dokumentów i ekstrakcji danych, które obsługuje znacznie więcej niż edytory tekstu, prezentacje, arkusze kalkulacyjne, e-maile, pliki PDF, znaczniki, e-booki i formaty archiwów. Oprócz wyodrębniania tekstu i obrazów interfejs API obsługuje również wyodrębnianie metadanych z obsługiwanych formatów dokumentów. Jedną z najistotniejszych cech interfejsu API jest analizowanie dokumentów PDF, które można wypełnić, i wyodrębnianie wartości z pól formularza za pomocą łatwego kodu Java.

W kolejnych przykładach będę korzystał ze wspomnianego API, czyli GroupDocs.Parser for Java, dlatego zalecam przygotowanie środowiska do implementacji tej funkcjonalności. Możesz pobrać najnowszy plik JAR z sekcji downloads lub po prostu dodać poniższe konfiguracje w swoich aplikacjach Java opartych na Maven. Aby uzyskać szczegółowe informacje na temat interfejsu API, odwiedź stronę API Reference.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Wyodrębnij dane z pola formularza PDF w Javie

Poniższe proste kroki, jak wyodrębnić wartości pól z formularza PDF.

  • Zainicjuj obiekt Parser z docelowym formularzem PDF.
  • Wywołaj metodę parseForm, aby pobrać wszystkie dane z formularza PDF.
  • Przejrzyj zebrane dane, aby uzyskać żądane wartości pól.

Poniższy kod pokazuje, jak analizować dokument PDF i pobierać wartości z wypełnionych pól formularza PDF w Javie.

// Przeanalizuj wypełniony formularz PDF, aby wyodrębnić wartości pól za pomocą interfejsu API Java GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// Wyodrębnij dane z formularza PDF
DocumentData data = parser.parseForm();
// Iteruj po wyodrębnionych danych formularza PDF
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Wniosek

Mam nadzieję, że programiści Javy są już zaznajomieni z łatwym, precyzyjnym i wydajnym sposobem analizowania dokumentów PDF w celu wyodrębnienia wartości tekstowych z pól formularza PDF. Jeśli chcesz dowiedzieć się więcej o podstawowych i zaawansowanych funkcjach API, możesz zapoznać się z dokumentacją.

W przypadku jakichkolwiek pytań skontaktuj się z pomocą techniczną @ forum.

Zobacz też