Анализ и извлечение заполняемых значений полей формы PDF в Java

В этой статье мы обсудим, как программно анализировать PDF-документ и извлекать значения из PDF-форм на Java. Бывают ситуации, когда у нас есть несколько заполненных анкет или отзывов в формате PDF от большой аудитории. Мы можем легко извлечь заполненные значения данных и использовать их для анализа. Давайте теперь перейдем непосредственно к чтению этих PDF-форм и извлечению заполненных значений полей данных в приложениях Java.

Разобрать PDF-форму для извлечения значений в Java

API Java для анализа и извлечения значений из форм PDF

GroupDocs предлагает Java API для разбора документов и извлечения данных, который поддерживает гораздо больше, чем обработку текстов, презентации, электронные таблицы, электронные письма, PDF, разметку, электронные книги и архивные форматы. Наряду с извлечением текста и изображений API также поддерживает извлечение метаданных из поддерживаемых форматов документов. Одной из основных функций API является анализ заполняемых PDF-документов и извлечение значений из полей формы с помощью простого кода Java.

В следующих примерах я буду использовать упомянутый API, т.е. GroupDocs.Parser for Java, поэтому я рекомендую вам подготовить свою среду для реализации этой функции. Вы можете загрузить последнюю версию JAR-файла из раздела downloads или просто добавить следующие конфигурации в свои Java-приложения на основе Maven. Для получения подробной информации об API посетите Справочник по API.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Извлечь данные из поля формы PDF в Java

Следующие простые шаги о том, как извлечь значения поля из формы PDF.

Инициализируйте объект Parser целевой формой PDF.
Вызовите метод parseForm, чтобы получить все данные из формы PDF.
Просмотрите собранные данные, чтобы получить нужные значения полей.

В следующем коде показано, как анализировать документ PDF и получать значения из заполненных полей формы PDF в Java.

// Проанализируйте заполненную форму PDF, чтобы извлечь значения полей, используя Java API GroupDocs.Parser.
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// Извлечь данные из формы PDF
DocumentData data = parser.parseForm();
// Перебор извлеченных данных PDF-формы
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}

COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Вывод

Я надеюсь, что разработчики Java теперь знакомы с простым, точным и эффективным способом анализа документов PDF для извлечения текстовых значений из полей формы PDF. Если вам интересно узнать больше об основных и расширенных функциях API, вы можете изучить документацию.

В случае возникновения вопросов обращайтесь в службу поддержки @forum.

Чтение полей формы PDF в Java

API Java для анализа и извлечения значений из форм PDF

Извлечь данные из поля формы PDF в Java

Вывод

Смотрите также

API Java для анализа и извлечения значений из форм PDF#

Извлечь данные из поля формы PDF в Java#

Вывод#

Смотрите также#

API Java для анализа и извлечения значений из форм PDF

Извлечь данные из поля формы PDF в Java

Вывод

Смотрите также