가장 널리 사용되는 파일 형식 중 하나인 PDF는 거의 모든 비즈니스와 산업에서 사용되고 있습니다. PDF 문서는 서식이 지정된 텍스트, 이미지, 주석 등 다양한 콘텐츠를 포함할 수 있습니다. PDF 파일에서 콘텐츠를 추출해야 하는 경우가 많습니다. 이 기사에서는 Java의 PDF 문서에서 프로그래밍 방식으로 이미지를 추출하는 방법에 대해 설명합니다.
PDF 파일에서 이미지를 추출하는 Java API
GroupDocs는 Java 개발자가 PDF 파일에서 이미지를 추출할 수 있도록 GroupDocs.Parser를 제공합니다. PDF 파일과 함께 동일한 API는 워드 프로세싱 문서, 스프레드시트, 전자책, 프리젠테이션, 이메일, ZIP 아카이브 및 기타 많은 문서 형식과 같은 다양한 다른 문서 형식에서 이미지의 구문 분석 및 추출을 지원합니다. .
다운로드 또는 구성
다운로드 섹션에서 JAR 파일을 다운로드하거나 maven 기반 Java 애플리케이션의 pom.xml에 대한 리포지토리 및 종속성 구성을 얻을 수 있습니다.
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
Java의 PDF 문서에서 이미지를 추출하는 단계
다음은 몇 줄의 Java 코드를 사용하여 PDF 파일에서 이미지를 가져오는 방법을 단계별로 설명합니다.
- 새 프로젝트를 만듭니다.
- 위에서 언급한 대로 API를 다운로드하거나 최신 API 버전으로 업데이트하십시오.
- 다음 클래스를 가져옵니다.
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;
- Parser 클래스를 사용하여 PDF 문서를 로드합니다.
// PDF 파일 로드
try (Parser parser = new Parser("path/document.pdf")) {
// 이미지 추출 코드는 여기에 있습니다.
}
- getImages 메서드를 사용하여 문서에서 모든 이미지를 추출합니다.
// 로드된 파일에서 이미지 추출
Iterable<PageImageArea> images = parser.getImages();
- 컬렉션의 각 이미지에 액세스하고 save 메서드를 사용하여 저장합니다.
// 확장자로 파일 저장
for (PageImageArea image : images) {
image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}
이미지는 PNG, JPG, BMP, WebP 또는 GIF와 같은 다양한 이미지 형식으로 저장할 수 있습니다.
Java Complete Code – PDF에서 이미지 추출
제공된 PDF 파일에서 모든 이미지를 가져올 수 있는 완전한 소스 코드는 다음과 같습니다.
// Java의 PDF 파일에서 이미지 추출
try (Parser parser = new Parser("path/document.pdf"))
{
// 이미지 가져오기
Iterable<PageImageArea> images = parser.getImages();
// 이미지 추출이 지원되는지 확인
if (images == null)
{
System.out.println("Images extraction isn't supported");
return;
}
int imageCounter = 0;
// 추출된 이미지 반복
for (PageImageArea image : images)
{
image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}
}
결과
샘플 PDF 문서
추출된 이미지
필요한 경우 Java에서 PDF 문서의 특정 페이지에서 이미지 추출하는 방법에 대해서도 별도의 기사에서 설명합니다.
더 읽어보기
문서를 사용하여 데이터 추출 Java API에 대해 자세히 알아볼 수 있습니다. 포럼을 통해 질문을 공유할 수 있습니다.