W tym artykule omówimy, jak analizować dokument PDF i wyodrębniać wartości z formularzy PDF programowo w Javie. Istnieje wiele sytuacji, w których mamy kilka wypełnionych formularzy ankiet lub informacji zwrotnych w formacie PDF od dużej grupy odbiorców. Możemy łatwo wyodrębnić wypełnione wartości danych i wykorzystać je do analizy. Przejdźmy teraz od razu do czytania tych formularzy PDF i wyodrębniania wypełnionych wartości pól danych w aplikacjach Java.
Java API do analizowania i wyodrębniania wartości z formularzy PDF
GroupDocs oferuje API Java do analizowania dokumentów i ekstrakcji danych, które obsługuje znacznie więcej niż edytory tekstu, prezentacje, arkusze kalkulacyjne, e-maile, pliki PDF, znaczniki, e-booki i formaty archiwów. Oprócz wyodrębniania tekstu i obrazów interfejs API obsługuje również wyodrębnianie metadanych z obsługiwanych formatów dokumentów. Jedną z najistotniejszych cech interfejsu API jest analizowanie dokumentów PDF, które można wypełnić, i wyodrębnianie wartości z pól formularza za pomocą łatwego kodu Java.
W kolejnych przykładach będę korzystał ze wspomnianego API, czyli GroupDocs.Parser for Java, dlatego zalecam przygotowanie środowiska do implementacji tej funkcjonalności. Możesz pobrać najnowszy plik JAR z sekcji downloads lub po prostu dodać poniższe konfiguracje w swoich aplikacjach Java opartych na Maven. Aby uzyskać szczegółowe informacje na temat interfejsu API, odwiedź stronę API Reference.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>20.8</version>
</dependency>
Wyodrębnij dane z pola formularza PDF w Javie
Poniższe proste kroki, jak wyodrębnić wartości pól z formularza PDF.
- Zainicjuj obiekt Parser z docelowym formularzem PDF.
- Wywołaj metodę parseForm, aby pobrać wszystkie dane z formularza PDF.
- Przejrzyj zebrane dane, aby uzyskać żądane wartości pól.
Poniższy kod pokazuje, jak analizować dokument PDF i pobierać wartości z wypełnionych pól formularza PDF w Javie.
// Przeanalizuj wypełniony formularz PDF, aby wyodrębnić wartości pól za pomocą interfejsu API Java GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf");
// Wyodrębnij dane z formularza PDF
DocumentData data = parser.parseForm();
// Iteruj po wyodrębnionych danych formularza PDF
for (int i = 0; i < data.getCount(); i++) {
System.out.print(data.get(i).getName() + ": ");
PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
? (PageTextArea) data.get(i).getPageArea()
: null;
System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia
Wniosek
Mam nadzieję, że programiści Javy są już zaznajomieni z łatwym, precyzyjnym i wydajnym sposobem analizowania dokumentów PDF w celu wyodrębnienia wartości tekstowych z pól formularza PDF. Jeśli chcesz dowiedzieć się więcej o podstawowych i zaawansowanych funkcjach API, możesz zapoznać się z dokumentacją.
W przypadku jakichkolwiek pytań skontaktuj się z pomocą techniczną @ forum.