در این مقاله، نحوه تجزیه سند PDF و استخراج مقادیر از فرم های PDF به صورت برنامه نویسی در Java را مورد بحث قرار خواهیم داد. موقعیت های زیادی وجود دارد که در آن ما چندین فرم نظرسنجی پر شده یا بازخورد در قالب PDF از مخاطبان زیادی داریم. ما به راحتی می توانیم مقادیر داده های پر شده را استخراج کنیم و از آنها برای تجزیه و تحلیل استفاده کنیم. اجازه دهید اکنون مستقیماً به سمت خواندن این فرم‌های PDF و استخراج مقادیر فیلد داده‌های پر شده در برنامه‌های Java حرکت کنیم.

تجزیه فرم PDF برای استخراج مقادیر در جاوا

Java API برای تجزیه و استخراج مقادیر از فرم‌های PDF

GroupDocs یک [API Java تجزیه اسناد و استخراج داده1 ارائه می‌کند که از پردازش کلمه، ارائه‌ها، صفحات گسترده، ایمیل‌ها، PDF، نشانه‌گذاری، کتاب‌های الکترونیکی و فرمت‌های آرشیو بسیار بیشتر پشتیبانی می‌کند. همراه با استخراج متن و تصاویر، API از استخراج فراداده از فرمت‌های سند پشتیبانی شده نیز پشتیبانی می‌کند. یکی از ویژگی های برجسته API تجزیه اسناد PDF قابل پر کردن و استخراج مقادیر از فیلدهای فرم با کد Java آسان است.

در مثال های بعدی، من از API ذکر شده یعنی GroupDocs.Parser for Java استفاده خواهم کرد، بنابراین به شما توصیه می کنم محیط خود را برای پیاده سازی این ویژگی آماده کنید. می‌توانید آخرین فایل JAR را از بخش دانلودها دانلود کنید یا پیکربندی‌های زیر را در برنامه‌های Java مبتنی بر Maven خود اضافه کنید. برای جزئیات بیشتر درباره API، به API Reference مراجعه کنید.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

استخراج داده ها از فیلد فرم PDF در جاوا

مراحل ساده زیر برای نحوه استخراج مقادیر فیلد از فرم PDF.

  • شیء Parser را با فرم PDF مورد نظر مقداردهی کنید.
  • برای دریافت تمام داده ها از فرم PDF، روش parseForm را فراخوانی کنید.
  • داده های جمع آوری شده را پیمایش کنید تا مقادیر فیلد مورد نظر را بدست آورید.

کد زیر نحوه تجزیه سند PDF و دریافت مقادیر از فیلدهای فرم PDF پر شده در Java را نشان می دهد.

// برای استخراج مقادیر فیلد با استفاده از Java API GroupDocs.Parser، فرم PDF پر شده را تجزیه کنید
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// استخراج داده ها از فرم PDF
DocumentData data = parser.parseForm();
// روی داده های فرم PDF استخراج شده تکرار کنید
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

نتیجه

امیدوارم توسعه دهندگان Java اکنون با روش آسان، دقیق و کارآمد برای تجزیه اسناد PDF برای استخراج مقادیر متن از فیلدهای فرم PDF آشنا باشند. اگر می‌خواهید درباره ویژگی‌های اولیه و پیشرفته API بیشتر بدانید، می‌توانید [اسناد] را بررسی کنید.

در صورت وجود هرگونه سوال، با پشتیبانی @ forum تماس بگیرید.

همچنین ببینید