Trong bài viết này, chúng ta sẽ thảo luận về cách phân tích cú pháp tài liệu PDF và trích xuất các giá trị từ các biểu mẫu PDF theo chương trình trong Java. Có nhiều tình huống, trong đó chúng tôi có một số biểu mẫu khảo sát được điền đầy đủ hoặc phản hồi ở định dạng PDF từ một lượng lớn khán giả. Chúng ta có thể dễ dàng trích xuất các giá trị dữ liệu đã điền và sử dụng chúng để phân tích. Bây giờ chúng ta hãy chuyển sang đọc các biểu mẫu PDF này và trích xuất các giá trị trường dữ liệu đã điền trong các ứng dụng Java.

Phân tích biểu mẫu PDF để trích xuất các giá trị trong Java

API Java để phân tích cú pháp và trích xuất các giá trị từ biểu mẫu PDF

GroupDocs cung cấp API Java phân tích cú pháp tài liệu và trích xuất dữ liệu hỗ trợ nhiều hơn các định dạng xử lý văn bản, thuyết trình, bảng tính, email, PDF, đánh dấu, sách điện tử và lưu trữ. Cùng với việc trích xuất văn bản và hình ảnh, API cũng hỗ trợ trích xuất siêu dữ liệu từ các định dạng tài liệu được hỗ trợ. Một trong những tính năng nổi bật của API là phân tích cú pháp các tài liệu PDF có thể điền và trích xuất các giá trị từ các trường biểu mẫu bằng mã Java dễ dàng.

Trong các ví dụ sắp tới, tôi sẽ sử dụng API đã đề cập, tức là GroupDocs.Parser for Java, vì vậy tôi khuyên bạn nên chuẩn bị môi trường của mình để triển khai tính năng này. Bạn có thể tải xuống tệp JAR mới nhất từ phần tải xuống hoặc chỉ cần thêm các cấu hình sau vào các ứng dụng Java dựa trên Maven của mình. Để biết chi tiết về API, hãy truy cập Tham khảo API.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Trích xuất dữ liệu từ trường biểu mẫu PDF trong Java

Các bước đơn giản sau đây để biết cách trích xuất các giá trị trường từ biểu mẫu PDF.

  • Khởi tạo đối tượng Parser với biểu mẫu PDF đích.
  • Gọi phương thức parseForm để lấy tất cả dữ liệu từ biểu mẫu PDF.
  • Duyệt qua dữ liệu đã thu thập để nhận các giá trị trường mong muốn.

Đoạn mã sau cho biết cách phân tích cú pháp tài liệu PDF và nhận các giá trị từ các trường biểu mẫu PDF đã điền trong Java.

// Phân tích cú pháp Biểu mẫu PDF đã điền để trích xuất các giá trị trường bằng API Java của GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// Trích xuất dữ liệu từ PDF Form
DocumentData data = parser.parseForm();
// Lặp lại dữ liệu biểu mẫu PDF được trích xuất
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Sự kết luận

Tôi hy vọng rằng các nhà phát triển Java hiện đã quen thuộc với cách phân tích cú pháp tài liệu PDF dễ dàng, chính xác và hiệu quả để trích xuất các giá trị văn bản từ các trường biểu mẫu PDF. Nếu bạn muốn tìm hiểu thêm về các tính năng cơ bản và nâng cao của API, bạn có thể khám phá tài liệu.

Trong trường hợp có bất kỳ thắc mắc nào, hãy liên hệ với bộ phận hỗ trợ @ forum.

Xem thêm