이 기사에서는 PDF 문서를 구문 분석하고 Java에서 프로그래밍 방식으로 PDF 양식에서 값을 추출하는 방법에 대해 설명합니다. 다수의 청중으로부터 채워진 설문조사 양식이나 PDF 형식의 피드백이 여러 개 있는 상황이 많이 있습니다. 채워진 데이터 값을 쉽게 추출하여 분석에 사용할 수 있습니다. 이제 이러한 PDF 양식을 읽고 Java 응용 프로그램 내에서 채워진 데이터 필드 값을 추출하는 방향으로 바로 이동하겠습니다.
PDF 양식에서 값을 구문 분석하고 추출하는 Java API
GroupDocs는 워드 프로세싱, 프리젠테이션, 스프레드시트, 이메일, PDF, 마크업, 전자책 및 아카이브 형식보다 훨씬 더 많은 것을 지원하는 문서 구문 분석 및 데이터 추출 Java API를 제공합니다. API는 텍스트 및 이미지 추출과 함께 지원되는 문서 형식에서 메타데이터 추출도 지원합니다. API의 두드러진 기능 중 하나는 쉬운 Java 코드로 채울 수 있는 PDF 문서를 구문 분석하고 양식 필드에서 값을 추출하는 것입니다.
다음 예제에서는 언급된 API, 즉 **GroupDocs.Parser for Java**를 사용할 것이므로 이 기능을 구현하기 위한 환경을 준비하는 것이 좋습니다. 다운로드 섹션에서 최신 JAR 파일을 다운로드하거나 Maven 기반 Java 애플리케이션에 다음 구성을 추가하면 됩니다. API에 대한 자세한 내용은 API 참조를 참조하세요.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>20.8</version>
</dependency>
Java의 PDF 양식 필드에서 데이터 추출
PDF 양식에서 필드 값을 추출하는 방법에 대한 다음은 간단한 단계입니다.
- 대상 PDF 형식으로 Parser 개체를 초기화합니다.
- parseForm 메서드를 호출하여 PDF 양식에서 모든 데이터를 가져옵니다.
- 수집된 데이터를 탐색하여 원하는 필드 값을 얻습니다.
다음 코드는 Java에서 PDF 문서를 구문 분석하고 채워진 PDF 양식 필드에서 값을 가져오는 방법을 보여줍니다.
// 채워진 PDF 양식을 구문 분석하여 GroupDocs.Parser의 Java API를 사용하여 필드 값 추출
Parser parser = new Parser("filePath/PDFForm.pdf");
// PDF 양식에서 데이터 추출
DocumentData data = parser.parseForm();
// 추출된 PDF 양식 데이터 반복
for (int i = 0; i < data.getCount(); i++) {
System.out.print(data.get(i).getName() + ": ");
PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
? (PageTextArea) data.get(i).getPageArea()
: null;
System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia
결론
이제 Java 개발자가 PDF 양식 필드에서 텍스트 값을 추출하기 위해 PDF 문서를 구문 분석하는 쉽고 정확하며 효율적인 방법에 익숙해지길 바랍니다. API의 기본 및 고급 기능에 대해 자세히 알아보려면 문서를 참조하십시오.
질문이 있는 경우 지원 @ 포럼에 문의하십시오.