다양한 형식의 eBook은 일상에서 매우 일반적입니다. eBook에는 이미지뿐만 아니라 텍스트도 포함될 수 있습니다. eBook의 이미지를 다른 곳에서 사용하려는 경우 Java 애플리케이션 내에서 프로그래밍 방식으로 쉽게 추출할 수 있습니다. 이 기사에서는 Java에서 EPUB, PDF, FB2, CHM과 같은 eBook 파일에서 이미지를 추출하는 방법을 자동화하는 방법을 배웁니다.

아래에서 다음 주제를 다룹니다.

eBook에서 이미지를 추출하는 Java API

GroupDocs.Parser for Java API는 Java의 eBook 및 문서에서 이미지를 추출하기 위한 기능이 풍부한 자동화 API입니다. 이 외에도 API는 워드 프로세서 문서, 스프레드시트, PDF, 프레젠테이션, 이메일, ZIP 아카이브 및 기타 지원되는 문서 형식에서 이미지, 텍스트 및 메타데이터의 구문 분석 및 추출을 지원합니다.

다운로드 및 구성

다운로드 섹션에서 JAR 파일을 가져오거나 Maven 기반 Java 애플리케이션에 다음 pom.xml 구성을 추가하여 아래에 언급된 예제를 시도하십시오. 자세한 내용은 API 참조를 참조하세요.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>21.2</version> 
</dependency>

Java의 EPUB eBook에서 이미지 추출

EPUB eBook으로 시작하여 이미지를 구문 분석해 보겠습니다. 다음 단계에서는 EPUB eBook을 구문 분석하고 Java 코드를 사용하여 모든 이미지를 추출합니다.

  • eBook으로 Parser 클래스 객체를 생성합니다.
  • getImages 메소드를 사용하여 EPUB eBook의 모든 이미지를 추출합니다.
  • 추출된 이미지를 트래버스하여 디스크에 저장합니다.
이미지가 포함된 EPUB eBook

Adobe의 EPUB eBook [샘플 eBook 라이브러리][11]

다음 Java 코드는 EPUB eBook을 파싱하여 eBook의 이미지를 디스크에 하나씩 저장합니다.

// eBook을 구문 분석하여 Java의 PDF, EPUB, FB2, CHM 파일에서 이미지를 추출하고 디스크에 저장합니다.
Parser parser = new Parser("ebook.epub");
// eBook에서 이미지를 추출하고 JPEG 형식으로 저장합니다.
Iterable<PageImageArea> images = parser.getImages();
ImageOptions options = new ImageOptions(ImageFormat.Jpeg);
int imageNumber = 0;
// 추출된 이미지 반복
for (PageImageArea image : images) {
    image.save(Constants.getOutputFilePath(String.format("%d.jpeg", imageNumber)), options);
    imageNumber++;
}
EPUB eBook에서 추출한 이미지

결과적으로 모든 이미지는 제공된 위치에 저장됩니다. 다음은 샘플로 표시된 이미지 중 하나입니다.

이미지는 다음 이미지 파일 형식으로 저장할 수 있습니다.

  • JPG
  • PNG
  • 웹프
  • GIF
  • BMP

Java의 PDF, FB2, CHM eBook에서 이미지 추출

EPUB 형식 외에도 PDF, FB2, CHM 또는 다른 형식의 eBook이 있는 경우 동일한 방식으로 이미지를 추출할 수 있습니다. 객체를 생성하는 동안 eBook을 Parser 생성자에 전달하기만 하면 됩니다. 그 후 getImages 메서드는 동일한 Java 코드를 사용하여 제공된 eBook에서 이미지를 추출합니다.

// Provide different eBook formats to the Parser constructor to extract the images.
// Parser parser = new Parser("ebook.epub");
Parser parser = new Parser("ebook.pdf");
// Parser parser = new Parser("ebook.fb2");
// Parser parser = new Parser("ebook.chm");

Iterable<PageImageArea> images = parser.getImages();

결론

이 기사에서는 Java 애플리케이션 내의 PDF, EPUB, FB2, CHM eBook에서 모든 이미지를 프로그래밍 방식으로 가져오는 방법을 배웠습니다. 이제 GroupDocs.Parser for Java API를 사용하여 고유한 이미지 추출기 Java 애플리케이션을 빌드할 수 있습니다.

API에 대한 자세한 내용은 문서 또는 GitHub의 오픈 소스 예제를 참조하십시오. 추가 문제가 있는 경우 포럼에서 빠른 지원에 문의할 수 있습니다.

또한보십시오