У цій статті ми обговоримо, як розібрати PDF-документ і отримати значення з PDF-форм програмним шляхом у Java. Буває багато ситуацій, коли ми маємо кілька заповнених анкет або відгуків у форматі PDF від великої аудиторії. Ми можемо легко отримати заповнені значення даних і використовувати їх для аналізу. Давайте тепер перейдемо безпосередньо до читання цих PDF-форм і вилучення заповнених полів даних у програмах Java.

Проаналізуйте PDF-форму для вилучення значень у Java

Java API для аналізу та вилучення значень із форм PDF

GroupDocs пропонує API Java для аналізу документів і вилучення даних, який підтримує набагато більше, ніж обробка текстів, презентації, електронні таблиці, електронні листи, PDF, розмітка, електронні книги та формати архівів. Окрім вилучення тексту та зображень, API також підтримує вилучення метаданих із підтримуваних форматів документів. Однією з головних особливостей API є розбір заповнюваних PDF-документів і вилучення значень із полів форми за допомогою простого коду Java.

У наступних прикладах я буду використовувати згаданий API, тобто GroupDocs.Parser for Java, тому я рекомендую вам підготувати своє середовище для реалізації цієї функції. Ви можете завантажити найновіший файл JAR із розділу завантажень або просто додати наведені нижче конфігурації у своїх програмах Java на основі Maven. Щоб дізнатися більше про API, відвідайте API Reference.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Витягти дані з поля форми PDF у Java

Наступні прості кроки для отримання значень полів із форми PDF.

  • Ініціалізуйте об’єкт Parser цільовою формою PDF.
  • Викличте метод parseForm, щоб отримати всі дані з форми PDF.
  • Перегляньте зібрані дані, щоб отримати потрібні значення поля.

У наведеному нижче коді показано, як проаналізувати PDF-документ і отримати значення із заповнених полів форми PDF у Java.

// Проаналізуйте заповнену PDF-форму, щоб отримати значення полів за допомогою Java API GroupDocs.Parser
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// Витягти дані з форми PDF
DocumentData data = parser.parseForm();
// Переглядайте витягнуті дані форми PDF
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Висновок

Я сподіваюся, що розробники Java тепер знайомі з простим, точним і ефективним способом аналізу PDF-документів для отримання текстових значень із полів форми PDF. Якщо вам цікаво дізнатися більше про основні та розширені функції API, ви можете переглянути документацію.

У разі будь-яких питань звертайтеся до служби підтримки @ форум.

Дивись також