במאמר זה, נדון כיצד לנתח מסמך PDF ולחלץ ערכים מטפסי PDF באופן תכנותי ב-Java. ישנם מצבים רבים שבהם יש לנו מספר טפסי סקרים מלאים או משוב בפורמט PDF מקהל גדול. אנו יכולים בקלות לחלץ את ערכי הנתונים המלאים ולהשתמש בהם לניתוח. הבה נעבור כעת היישר לקריאת טפסי PDF אלה ולחלץ ערכי שדות נתונים מלאים בתוך יישומי Java.

נתח טופס PDF כדי לחלץ ערכים ב-Java

Java API לנתח ולחלץ ערכים מטפסי PDF

GroupDocs מציעה ניתוח מסמכים והפקת נתונים Java API שתומך בהרבה יותר מעיבוד תמלילים, מצגות, גיליונות אלקטרוניים, מיילים, PDF, סימון, ספרים אלקטרוניים ופורמטים של ארכיון. לצד החילוץ של טקסט ותמונות, ה-API תומך גם בחילוץ של מטא נתונים מ-פורמטים נתמכים של מסמכים. אחת התכונות הבולטות של ה-API היא לנתח את מסמכי ה-PDF הניתנים למילוי ולחלץ ערכים משדות הטופס באמצעות קוד Java קל.

בדוגמאות הבאות, אני אשתמש ב-API המוזכר כלומר GroupDocs.Parser עבור Java, אז אני ממליץ לך להכין את הסביבה שלך ליישם את התכונה. אתה יכול להוריד את קובץ ה-JAR האחרון מקטע הורדות או פשוט להוסיף את התצורות הבאות ביישומי Java מבוססי Maven. לפרטים על API, בקר ב-API Reference.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

חלץ נתונים משדה טופס PDF ב-Java

השלבים הפשוטים הבאים כיצד לחלץ ערכי שדות מטופס PDF.

  • אתחול האובייקט Parser עם טופס ה-PDF של היעד.
  • קרא למתודה parseForm כדי לקבל את כל הנתונים מטופס ה-PDF.
  • חצו את הנתונים שנאספו כדי לקבל את ערכי השדות הרצויים.

הקוד הבא מראה כיצד לנתח מסמך PDF ולקבל ערכים משדות טופס ה-PDF המלאים ב-Java.

// נתח את טופס ה-PDF המלא כדי לחלץ ערכי שדות באמצעות Java API של GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// חלץ נתונים מטופס PDF
DocumentData data = parser.parseForm();
// חזור על נתוני טופס ה-PDF שחולצו
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

סיכום

אני מקווה שמפתחי Java מכירים כעת את הדרך הקלה, המדויקת והיעילה לנתח את מסמכי ה-PDF כדי לחלץ ערכי טקסט משדות הטופס של PDF. אם אתה מעוניין ללמוד עוד על התכונות הבסיסיות והמתקדמות של ה-API, אתה יכול לחקור את התיעוד.

בכל מקרה של שאילתות, פנה לתמיכה @ פורום.

ראה גם