ในบทความนี้ เราจะพูดถึงวิธีการแยกวิเคราะห์เอกสาร PDF และแยกค่าจากรูปแบบ PDF โดยทางโปรแกรมใน Java มีหลายสถานการณ์ที่เรากรอกแบบฟอร์มสำรวจหรือข้อเสนอแนะในรูปแบบ PDF จากผู้ชมจำนวนมาก เราสามารถแยกค่าข้อมูลที่กรอกและนำไปใช้ในการวิเคราะห์ได้อย่างง่ายดาย ให้เรามุ่งตรงไปที่การอ่านแบบฟอร์ม PDF เหล่านี้และแยกค่าฟิลด์ข้อมูลที่กรอกภายในแอปพลิเคชัน Java

แยกวิเคราะห์แบบฟอร์ม PDF เพื่อแยกค่าใน Java

Java API เพื่อแยกวิเคราะห์และแยกค่าจากแบบฟอร์ม PDF

GroupDocs มี การแยกวิเคราะห์เอกสารและการแยกข้อมูล Java API ที่รองรับมากกว่าการประมวลผลคำ งานนำเสนอ สเปรดชีต อีเมล PDF มาร์กอัป ebooks และรูปแบบไฟล์เก็บถาวร นอกเหนือจากการแยกข้อความและรูปภาพแล้ว API ยังรองรับการแยกข้อมูลเมตาจาก รูปแบบเอกสารที่รองรับ คุณลักษณะเด่นอย่างหนึ่งของ API คือการแยกวิเคราะห์เอกสาร PDF ที่กรอกได้ และดึงค่าจากฟิลด์แบบฟอร์มด้วยโค้ด Java ที่ใช้งานง่าย

ในตัวอย่างต่อไปนี้ ฉันจะใช้ API ที่กล่าวถึง เช่น GroupDocs.Parser for Java ดังนั้นฉันขอแนะนำให้คุณเตรียมสภาพแวดล้อมของคุณเพื่อใช้คุณลักษณะนี้ คุณสามารถดาวน์โหลดไฟล์ JAR ล่าสุดได้จากส่วน ดาวน์โหลด หรือเพียงเพิ่มการกำหนดค่าต่อไปนี้ในแอปพลิเคชัน Java ที่ใช้ Maven สำหรับรายละเอียดเกี่ยวกับ API โปรดไปที่ ข้อมูลอ้างอิง API

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

แยกข้อมูลจากฟิลด์แบบฟอร์ม PDF ใน Java

ขั้นตอนง่ายๆ ต่อไปนี้สำหรับวิธีแยกค่าฟิลด์จากแบบฟอร์ม PDF

  • เริ่มต้นวัตถุ Parser ด้วยรูปแบบ PDF เป้าหมาย
  • เรียกใช้เมธอด parseForm เพื่อรับข้อมูลทั้งหมดจากแบบฟอร์ม PDF
  • สำรวจข้อมูลที่รวบรวมเพื่อรับค่าฟิลด์ที่ต้องการ

รหัสต่อไปนี้แสดงวิธีการแยกวิเคราะห์เอกสาร PDF และรับค่าจากฟิลด์แบบฟอร์ม PDF ที่กรอกใน Java

// แยกวิเคราะห์แบบฟอร์ม PDF ที่กรอกเพื่อแยกค่าฟิลด์โดยใช้ Java API ของ GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// ดึงข้อมูลจากแบบฟอร์ม PDF
DocumentData data = parser.parseForm();
// วนซ้ำข้อมูลในแบบฟอร์ม PDF ที่แยกออกมา
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

บทสรุป

ฉันหวังว่าตอนนี้นักพัฒนา Java จะคุ้นเคยกับวิธีที่ง่าย แม่นยำ และมีประสิทธิภาพในการแยกวิเคราะห์เอกสาร PDF เพื่อแยกค่าข้อความจากฟิลด์แบบฟอร์ม PDF หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับคุณสมบัติพื้นฐานและขั้นสูงของ API คุณสามารถสำรวจ เอกสารประกอบ

ในกรณีที่มีข้อสงสัย โปรดติดต่อฝ่ายสนับสนุน @ ฟอรัม

ดูสิ่งนี้ด้วย