가장 널리 사용되는 파일 형식 중 하나인 PDF는 거의 모든 비즈니스와 산업에서 사용되고 있습니다. PDF 문서는 서식이 지정된 텍스트, 이미지, 주석 등 다양한 콘텐츠를 포함할 수 있습니다. PDF 파일에서 콘텐츠를 추출해야 하는 경우가 많습니다. 이 기사에서는 Java의 PDF 문서에서 프로그래밍 방식으로 이미지를 추출하는 방법에 대해 설명합니다.

PDF 파일에서 이미지를 추출하는 Java API

GroupDocs는 Java 개발자가 PDF 파일에서 이미지를 추출할 수 있도록 GroupDocs.Parser를 제공합니다. PDF 파일과 함께 동일한 API는 워드 프로세싱 문서, 스프레드시트, 전자책, 프리젠테이션, 이메일, ZIP 아카이브 및 기타 많은 문서 형식과 같은 다양한 다른 문서 형식에서 이미지의 구문 분석 및 추출을 지원합니다. .

다운로드 또는 구성

다운로드 섹션에서 JAR 파일을 다운로드하거나 maven 기반 Java 애플리케이션의 pom.xml에 대한 리포지토리 및 종속성 구성을 얻을 수 있습니다.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.11</version>
</dependency>

Java의 PDF 문서에서 이미지를 추출하는 단계

다음은 몇 줄의 Java 코드를 사용하여 PDF 파일에서 이미지를 가져오는 방법을 단계별로 설명합니다.

  1. 새 프로젝트를 만듭니다.
  2. 위에서 언급한 대로 API를 다운로드하거나 최신 API 버전으로 업데이트하십시오.
  3. 다음 클래스를 가져옵니다.
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;
  1. Parser 클래스를 사용하여 PDF 문서를 로드합니다.
// PDF 파일 로드
try (Parser parser = new Parser("path/document.pdf")) {
    // 이미지 추출 코드는 여기에 있습니다.
}
  1. getImages 메서드를 사용하여 문서에서 모든 이미지를 추출합니다.
// 로드된 파일에서 이미지 추출
Iterable<PageImageArea> images = parser.getImages();
  1. 컬렉션의 각 이미지에 액세스하고 save 메서드를 사용하여 저장합니다.
// 확장자로 파일 저장
for (PageImageArea image : images)  {
    image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}

이미지는 PNG, JPG, BMP, WebP 또는 GIF와 같은 다양한 이미지 형식으로 저장할 수 있습니다.

Java Complete Code – PDF에서 이미지 추출

제공된 PDF 파일에서 모든 이미지를 가져올 수 있는 완전한 소스 코드는 다음과 같습니다.

// Java의 PDF 파일에서 이미지 추출
try (Parser parser = new Parser("path/document.pdf")) 
{
    // 이미지 가져오기
    Iterable<PageImageArea> images = parser.getImages();
    
    // 이미지 추출이 지원되는지 확인
    if (images == null) 
    {
        System.out.println("Images extraction isn't supported");
        return;
    }
    
    int imageCounter = 0;
    // 추출된 이미지 반복
    for (PageImageArea image : images) 
    {
        image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
    }
}

결과

샘플 PDF 문서

추출할 이미지가 있는 PDF 문서.

추출된 이미지

PDF에서 이미지를 추출했습니다.

필요한 경우 Java에서 PDF 문서의 특정 페이지에서 이미지 추출하는 방법에 대해서도 별도의 기사에서 설명합니다.

더 읽어보기

문서를 사용하여 데이터 추출 Java API에 대해 자세히 알아볼 수 있습니다. 포럼을 통해 질문을 공유할 수 있습니다.

또한보십시오