V tomto článku se budeme zabývat tím, jak analyzovat dokument PDF a extrahovat hodnoty z formulářů PDF programově v Java. Existuje mnoho situací, kdy máme několik vyplněných dotazníků nebo zpětnou vazbu ve formátu PDF od velkého publika. Vyplněné datové hodnoty můžeme snadno extrahovat a použít k analýze. Pojďme nyní rovnou ke čtení těchto formulářů PDF a extrahování hodnot vyplněných datových polí v aplikacích Java.
Java API pro analýzu a extrahování hodnot z formulářů PDF
GroupDocs nabízí analýzu dokumentů a extrakci dat Java API, které podporuje mnohem více než jen textové zpracování, prezentace, tabulky, e-maily, PDF, značky, elektronické knihy a archivní formáty. Spolu s extrakcí textu a obrázků podporuje API také extrakci metadat z podporovaných formátů dokumentů. Jednou z hlavních funkcí API je analyzovat vyplnitelné dokumenty PDF a extrahovat hodnoty z polí formuláře pomocí jednoduchého kódu Java.
V následujících příkladech budu používat zmíněné API, tj. GroupDocs.Parser for Java, takže bych vám doporučil připravit si prostředí na implementaci funkce. Můžete si stáhnout nejnovější soubor JAR ze sekce ke stažení nebo jednoduše přidat následující konfigurace do vašich Java aplikací založených na Maven. Podrobnosti o rozhraní API naleznete v Referenční informace o rozhraní API.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>20.8</version>
</dependency>
Extrahujte data z pole formuláře PDF v Java
Následující jednoduché kroky, jak extrahovat hodnoty polí z formuláře PDF.
- Inicializujte objekt Parser s cílovým formulářem PDF.
- Voláním metody parseForm získáte všechna data z formuláře PDF.
- Procházejte shromážděná data, abyste získali požadované hodnoty polí.
Následující kód ukazuje, jak analyzovat dokument PDF a získat hodnoty z vyplněných polí formuláře PDF v Java.
// Analyzujte vyplněný formulář PDF a extrahujte hodnoty polí pomocí Java API GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf");
// Extrahujte data z formuláře PDF
DocumentData data = parser.parseForm();
// Iterujte extrahovaná data formuláře PDF
for (int i = 0; i < data.getCount(); i++) {
System.out.print(data.get(i).getName() + ": ");
PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
? (PageTextArea) data.get(i).getPageArea()
: null;
System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia
Závěr
Doufám, že vývojáři Java jsou nyní obeznámeni se snadným, přesným a efektivním způsobem, jak analyzovat dokumenty PDF a extrahovat textové hodnoty z polí formuláře PDF. Pokud se chcete dozvědět více o základních a pokročilých funkcích API, můžete prozkoumat dokumentaci.
V případě jakýchkoliv dotazů kontaktujte podporu @ forum.