이 기사에서는 PDF 문서를 구문 분석하고 Java에서 프로그래밍 방식으로 PDF 양식에서 값을 추출하는 방법에 대해 설명합니다. 다수의 청중으로부터 채워진 설문조사 양식이나 PDF 형식의 피드백이 여러 개 있는 상황이 많이 있습니다. 채워진 데이터 값을 쉽게 추출하여 분석에 사용할 수 있습니다. 이제 이러한 PDF 양식을 읽고 Java 응용 프로그램 내에서 채워진 데이터 필드 값을 추출하는 방향으로 바로 이동하겠습니다.

PDF 양식을 구문 분석하여 Java에서 값 추출

PDF 양식에서 값을 구문 분석하고 추출하는 Java API

GroupDocs는 워드 프로세싱, 프리젠테이션, 스프레드시트, 이메일, PDF, 마크업, 전자책 및 아카이브 형식보다 훨씬 더 많은 것을 지원하는 문서 구문 분석 및 데이터 추출 Java API를 제공합니다. API는 텍스트 및 이미지 추출과 함께 지원되는 문서 형식에서 메타데이터 추출도 지원합니다. API의 두드러진 기능 중 하나는 쉬운 Java 코드로 채울 수 있는 PDF 문서를 구문 분석하고 양식 필드에서 값을 추출하는 것입니다.

다음 예제에서는 언급된 API, 즉 **GroupDocs.Parser for Java**를 사용할 것이므로 이 기능을 구현하기 위한 환경을 준비하는 것이 좋습니다. 다운로드 섹션에서 최신 JAR 파일을 다운로드하거나 Maven 기반 Java 애플리케이션에 다음 구성을 추가하면 됩니다. API에 대한 자세한 내용은 API 참조를 참조하세요.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Java의 PDF 양식 필드에서 데이터 추출

PDF 양식에서 필드 값을 추출하는 방법에 대한 다음은 간단한 단계입니다.

  • 대상 PDF 형식으로 Parser 개체를 초기화합니다.
  • parseForm 메서드를 호출하여 PDF 양식에서 모든 데이터를 가져옵니다.
  • 수집된 데이터를 탐색하여 원하는 필드 값을 얻습니다.

다음 코드는 Java에서 PDF 문서를 구문 분석하고 채워진 PDF 양식 필드에서 값을 가져오는 방법을 보여줍니다.

// 채워진 PDF 양식을 구문 분석하여 GroupDocs.Parser의 Java API를 사용하여 필드 값 추출
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// PDF 양식에서 데이터 추출
DocumentData data = parser.parseForm();
// 추출된 PDF 양식 데이터 반복
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

결론

이제 Java 개발자가 PDF 양식 필드에서 텍스트 값을 추출하기 위해 PDF 문서를 구문 분석하는 쉽고 정확하며 효율적인 방법에 익숙해지길 바랍니다. API의 기본 및 고급 기능에 대해 자세히 알아보려면 문서를 참조하십시오.

질문이 있는 경우 지원 @ 포럼에 문의하십시오.

또한보십시오