PDF، یکی از محبوب ترین فرمت های فایل است که تقریباً در هر کسب و کار و صنعت استفاده می شود. اسناد PDF می توانند حاوی محتوای متنوعی از جمله متن فرمت شده، تصاویر، حاشیه نویسی و غیره باشند. اغلب برای استخراج محتوا از فایل های PDF لازم است. در اینجا در این مقاله، نحوه استخراج برنامه‌نویسی تصاویر از اسناد PDF در Java را مورد بحث قرار خواهیم داد.

Java API برای استخراج تصاویر از فایل های PDF

GroupDocs GroupDocs.Parser را برای توسعه دهندگان Java برای استخراج تصاویر از فایل های PDF فراهم می کند. همراه با فایل PDF، همان API از تجزیه و همچنین استخراج تصاویر از فرمت‌های مختلف سند مانند اسناد پردازش کلمه، صفحات گسترده، کتاب‌های الکترونیکی، ارائه‌ها، ایمیل‌ها، بایگانی‌های ZIP و [بسیاری از قالب‌های سند دیگر4 پشتیبانی می‌کند. .

دانلود یا پیکربندی کنید

می‌توانید فایل JAR را از بخش دانلودها دانلود کنید، یا فقط تنظیمات مخزن و وابستگی را برای pom.xml برنامه‌های Java مبتنی بر maven خود دریافت کنید.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.11</version>
</dependency>

مراحل استخراج تصاویر از یک سند PDF در جاوا

در زیر نکات گام به گام آورده شده است که نحوه دریافت تصاویر از فایل PDF را با استفاده از چند خط کد Java نشان می دهد.

  1. یک پروژه جدید ایجاد کنید.
  2. API را همانطور که در بالا ذکر شد دانلود کنید یا به آخرین نسخه API به روز کنید.
  3. وارد کردن کلاس های زیر:
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;
  1. سند PDF را با استفاده از کلاس Parser بارگیری کنید.
// فایل PDF را بارگیری کنید
try (Parser parser = new Parser("path/document.pdf")) {
    // کد استخراج تصویر در اینجا قرار می گیرد.
}
  1. تمام تصاویر را با استفاده از روش getImages از سند استخراج کنید.
// استخراج تصاویر از فایل بارگذاری شده
Iterable<PageImageArea> images = parser.getImages();
  1. به هر تصویر از مجموعه دسترسی داشته باشید و با استفاده از روش ذخیره آن را ذخیره کنید.
// فایل را با پسوند آنها ذخیره کنید
for (PageImageArea image : images)  {
    image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}

تصاویر را می توان در فرمت های مختلف تصویر مانند PNG، JPG، BMP، WebP یا GIF ذخیره کرد.

کد کامل Java – استخراج تصویر از PDF

در اینجا کد منبع کاملی وجود دارد که به شما امکان می دهد تمام تصاویر را از فایل PDF ارائه شده دریافت کنید.

// استخراج تصاویر از فایل PDF در جاوا
try (Parser parser = new Parser("path/document.pdf")) 
{
    // دریافت تصاویر
    Iterable<PageImageArea> images = parser.getImages();
    
    // بررسی کنید که آیا استخراج تصاویر پشتیبانی می شود
    if (images == null) 
    {
        System.out.println("Images extraction isn't supported");
        return;
    }
    
    int imageCounter = 0;
    // تکرار تصاویر استخراج شده
    for (PageImageArea image : images) 
    {
        image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
    }
}

نتایج

نمونه سند PDF

سند PDF دارای تصاویر برای استخراج.

تصاویر استخراج شده

تصاویر استخراج شده از PDF

در صورت نیاز، همچنین در مقاله جداگانه ای توضیح داده شده است که چگونه می توانید تصاویر را از هر صفحه خاصی از یک سند PDF در Java استخراج کنید.

ادامه مطلب

می‌توانید با استفاده از مستندات Java API استخراج داده را بررسی کنید. شما می توانید سوالات خود را از طریق تالار گفتمان با ما در میان بگذارید.

همچنین ببینید