Portable Document Format(PDF)은 Adobe에서 개발한 널리 사용되는 문서 형식입니다. PDF 문서에는 서식이 지정된 텍스트, 이미지, 주석, 양식 필드 등 다양한 콘텐츠가 포함될 수 있습니다. 프로그래밍 방식으로 PDF 문서를 구문 분석하는 것은 널리 사용되는 사용 사례이며 텍스트를 추출하는 여러 방법이 있습니다. 그러나 PDF 문서에서 이미지를 추출하는 것은 복잡한 작업입니다. 이 문서는 **C#**에서 [GroupDocs.Parser for .NET](https://products.groupdocs. com/parser) API. 시작하겠습니다.

PDF 문서에서 이미지를 추출하는 단계

1. 새 프로젝트를 만듭니다.

2. GroupDocs.Parser for .NET을 다운로드하거나 NuGet을 사용하여 설치합니다. /GroupDocs.Parser).

3. 다음 네임스페이스를 추가합니다.

using GroupDocs.Parser;
using GroupDocs.Parser.Data;
using System.Drawing;
using System.Drawing.Imaging;

4. PDF 문서를 로드합니다.

// Parser 클래스의 인스턴스 생성
using (Parser parser = new Parser("sample.pdf"))
{
  // 당신은 코드가 여기에 간다.
}

5. 문서에서 이미지를 추출합니다.

// 이미지 추출
IEnumerable<PageImageArea> images = parser.GetImages();
// 이미지 추출이 지원되는지 확인
if (images == null)
{
  Console.WriteLine("Images extraction isn't supported");
  return;
}

6. 컬렉션에서 각 이미지에 액세스하여 저장합니다.

// 이미지 반복
foreach (PageImageArea image in images)
{
  // 이미지 저장
  Image.FromStream(image.GetImageStream()).Save(string.Format("{0}.Jpeg", counter++), ImageFormat.Jpeg);                    
}

완전한 코드

// Parser 클래스의 인스턴스 생성
using (Parser parser = new Parser("C:\\candy.pdf"))
{
	// 이미지 추출
	IEnumerable<PageImageArea> images = parser.GetImages();
	// 이미지 추출이 지원되는지 확인
	if (images == null)
	{
		Console.WriteLine("Images extraction isn't supported");
		return;
	}
	
	int counter = 1;
	// 이미지 반복
	foreach (PageImageArea image in images)
	{
		// 각 이미지 저장
		Image.FromStream(image.GetImageStream()).Save(string.Format("{0}.Jpeg", counter++), ImageFormat.Jpeg);                    
	}
}

결과

PDF 문서

이미지를 추출하는 PDF 문서.

추출된 이미지

PDF에서 추출한 이미지.

.NET API용 GroupDocs.Parser에서 제공하는 전체 기능 목록을 보려면 문서를 방문하세요. 건배!