Trong bài viết này, chúng ta sẽ tìm hiểu cách đọc và phân tích cú pháp các tài liệu PDF, sau đó trích xuất các giá trị trường biểu mẫu PDF theo chương trình trong C#. Trước đó, chúng ta đã thấy cách trích xuất các giá trị từ biểu mẫu PDF trong Java. Sau khi đọc các bài viết này, nếu bạn đã điền vào biểu mẫu phản hồi, bạn có thể trích xuất các giá trị trong các ứng dụng .NET & Java của mình để phân tích hoặc lưu chúng vào cơ sở dữ liệu.

Phân tích các biểu mẫu PDF để trích xuất các giá trị trong C#

.NET API để phân tích cú pháp và trích xuất các giá trị từ các biểu mẫu PDF

GroupDocs.Parser for .NET là một API trích xuất dữ liệu và phân tích cú pháp mạnh mẽ, dễ sử dụng cho các ứng dụng .NET. Nó hỗ trợ trích xuất văn bản, siêu dữ liệu và hình ảnh từ các tài liệu xử lý văn bản và PDF, bảng tính, bản trình bày, email, đánh dấu, sách điện tử, tài liệu lưu trữ, v.v. Một trong những tính năng quan trọng và cũng sẽ được hiển thị bên dưới là phân tích cú pháp các biểu mẫu PDF có thể điền để trích xuất các giá trị trường biểu mẫu bằng cách sử dụng một đoạn mã C# nhỏ.

Để kiểm tra các ví dụ được đề cập bên dưới và các ví dụ khác về API, bạn có thể tải xuống và cài đặt API từ NuGet hoặc trực tiếp tải xuống từ các bản tải xuống của GroupDocs.

PM> Install-Package GroupDocs.Parser

Trích xuất dữ liệu từ trường biểu mẫu PDF bằng C#

Các bước đơn giản sau đây cho biết cách phân tích cú pháp PDF và sau đó trích xuất các giá trị trường biểu mẫu PDF trong C#.

  • Tải tệp PDF bằng lớp Parser.
  • Phân tích cú pháp biểu mẫu PDF bằng phương pháp ParseForm.
  • Duyệt qua bộ sưu tập được phân tích cú pháp để trích xuất các giá trị trường biểu mẫu.

Ví dụ về mã C# sau đây cho thấy việc trích xuất các giá trị trường của các biểu mẫu PDF đã điền trong các ứng dụng .NET.

// Phân tích cú pháp Biểu mẫu PDF đã điền để trích xuất các giá trị trường trong C#
using (Parser parser = new Parser("filePath/PDFForm.pdf"))
{
    // Trích xuất dữ liệu từ PDF Form
    DocumentData data = parser.ParseForm();
    // Lặp lại dữ liệu trường Biểu mẫu PDF được trích xuất
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Sự kết luận

Tôi tin tưởng rằng giờ đây bạn sẽ cảm thấy thoải mái khi phát triển ứng dụng dựa trên .NET của riêng mình, ứng dụng này có thể phân tích cú pháp tệp PDF và tìm nạp giá trị từ các trường biểu mẫu PDF có thể điền một cách nhanh chóng và chính xác. Để thêm nhiều tính năng hơn, bạn có thể tìm hiểu thêm về API từ các bài viết tài liệu và ví dụ về C# trên GitHub.

Đối với các câu hỏi và phản hồi nhanh, hãy liên hệ trên diễn đàn.

Xem thêm