Pada artikel ini, kita akan membahas cara mengurai dokumen PDF dan mengekstrak nilai dari formulir PDF secara terprogram di Java. Ada banyak situasi, di mana kami memiliki beberapa formulir survei atau umpan balik yang diisi dalam format PDF dari audiens yang besar. Kami dapat dengan mudah mengekstrak nilai data yang diisi dan menggunakannya untuk analisis. Mari kita langsung membaca formulir PDF ini dan mengekstrak nilai bidang data yang diisi dalam aplikasi Java.

Parsing Formulir PDF untuk Mengekstrak nilai di Java

Java API untuk Mengurai dan Mengekstrak Nilai dari Formulir PDF

GroupDocs menawarkan penguraian dokumen dan ekstraksi data Java API yang mendukung lebih dari sekadar pemrosesan kata, presentasi, spreadsheet, email, PDF, markup, ebook, dan format arsip. Seiring dengan ekstraksi teks dan gambar, API juga mendukung ekstraksi metadata dari format dokumen yang didukung. Salah satu fitur yang menonjol dari API adalah mengurai dokumen PDF yang dapat diisi dan mengekstrak nilai dari bidang formulir dengan kode Java yang mudah.

Dalam contoh yang akan datang, saya akan menggunakan API yang disebutkan yaitu GroupDocs.Parser for Java, jadi saya akan merekomendasikan Anda untuk mempersiapkan lingkungan Anda untuk mengimplementasikan fitur tersebut. Anda dapat mengunduh file JAR terbaru dari bagian unduh atau hanya menambahkan konfigurasi berikut di aplikasi Java berbasis Maven Anda. Untuk detail tentang API, kunjungi Referensi API.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Ekstrak Data dari Bidang Formulir PDF di Java

Berikut langkah-langkah sederhana untuk cara mengekstrak nilai bidang dari formulir PDF.

  • Inisialisasi objek Parser dengan bentuk PDF target.
  • Panggil metode parseForm untuk mendapatkan semua data dari formulir PDF.
  • Lintasi data yang dikumpulkan untuk mendapatkan nilai bidang yang diinginkan.

Kode berikut menunjukkan cara mem-parsing dokumen PDF dan mendapatkan nilai dari kolom formulir PDF yang diisi di Java.

// Parsing Formulir PDF yang telah diisi untuk mengekstrak nilai bidang menggunakan Java API dari GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// Ekstrak data dari Formulir PDF
DocumentData data = parser.parseForm();
// Ulangi data formulir PDF yang diekstraksi
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Kesimpulan

Saya berharap, pengembang Java sekarang sudah terbiasa dengan cara yang mudah, tepat, dan efisien untuk mengurai dokumen PDF untuk mengekstrak nilai teks dari bidang formulir PDF. Jika Anda tertarik untuk mempelajari lebih lanjut tentang fitur dasar dan lanjutan API, Anda dapat menjelajahi dokumentasi.

Jika ada pertanyaan, hubungi dukungan @ forum.

Lihat juga