이 기사에서는 PDF 문서를 구문 분석하고 Java에서 프로그래밍 방식으로 PDF 양식에서 값을 추출하는 방법에 대해 설명합니다. 다수의 청중으로부터 채워진 설문조사 양식이나 PDF 형식의 피드백이 여러 개 있는 상황이 많이 있습니다. 채워진 데이터 값을 쉽게 추출하여 분석에 사용할 수 있습니다. 이제 이러한 PDF 양식을 읽고 Java 응용 프로그램 내에서 채워진 데이터 필드 값을 추출하는 방향으로 바로 이동하겠습니다.
![PDF 양식을 구문 분석하여 Java에서 값 추출](images/Extract-from-PDF-Form-in-java.jpeg#center)
PDF 양식에서 값을 구문 분석하고 추출하는 Java API
GroupDocs는 워드 프로세싱, 프리젠테이션, 스프레드시트, 이메일, PDF, 마크업, 전자책 및 아카이브 형식보다 훨씬 더 많은 것을 지원하는 문서 구문 분석 및 데이터 추출 Java API를 제공합니다. API는 텍스트 및 이미지 추출과 함께 지원되는 문서 형식에서 메타데이터 추출도 지원합니다. API의 두드러진 기능 중 하나는 쉬운 Java 코드로 채울 수 있는 PDF 문서를 구문 분석하고 양식 필드에서 값을 추출하는 것입니다.
다음 예제에서는 언급된 API, 즉 **GroupDocs.Parser for Java**를 사용할 것이므로 이 기능을 구현하기 위한 환경을 준비하는 것이 좋습니다. 다운로드 섹션에서 최신 JAR 파일을 다운로드하거나 Maven 기반 Java 애플리케이션에 다음 구성을 추가하면 됩니다. API에 대한 자세한 내용은 API 참조를 참조하세요.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>20.8</version>
</dependency>
Java의 PDF 양식 필드에서 데이터 추출
PDF 양식에서 필드 값을 추출하는 방법에 대한 다음은 간단한 단계입니다.
- 대상 PDF 형식으로 Parser 개체를 초기화합니다.
- parseForm 메서드를 호출하여 PDF 양식에서 모든 데이터를 가져옵니다.
- 수집된 데이터를 탐색하여 원하는 필드 값을 얻습니다.
다음 코드는 Java에서 PDF 문서를 구문 분석하고 채워진 PDF 양식 필드에서 값을 가져오는 방법을 보여줍니다.
// 채워진 PDF 양식을 구문 분석하여 GroupDocs.Parser의 Java API를 사용하여 필드 값 추출
Parser parser = new Parser("filePath/PDFForm.pdf");
// PDF 양식에서 데이터 추출
DocumentData data = parser.parseForm();
// 추출된 PDF 양식 데이터 반복
for (int i = 0; i < data.getCount(); i++) {
System.out.print(data.get(i).getName() + ": ");
PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
? (PageTextArea) data.get(i).getPageArea()
: null;
System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia
결론
이제 Java 개발자가 PDF 양식 필드에서 텍스트 값을 추출하기 위해 PDF 문서를 구문 분석하는 쉽고 정확하며 효율적인 방법에 익숙해지길 바랍니다. API의 기본 및 고급 기능에 대해 자세히 알아보려면 문서를 참조하십시오.
질문이 있는 경우 지원 @ 포럼에 문의하십시오.