PDF، یکی از محبوب ترین فرمت های فایل است که تقریباً در هر کسب و کار و صنعت استفاده می شود. اسناد PDF می توانند حاوی محتوای متنوعی از جمله متن فرمت شده، تصاویر، حاشیه نویسی و غیره باشند. اغلب برای استخراج محتوا از فایل های PDF لازم است. در اینجا در این مقاله، نحوه استخراج برنامهنویسی تصاویر از اسناد PDF در Java را مورد بحث قرار خواهیم داد.
Java API برای استخراج تصاویر از فایل های PDF
GroupDocs GroupDocs.Parser را برای توسعه دهندگان Java برای استخراج تصاویر از فایل های PDF فراهم می کند. همراه با فایل PDF، همان API از تجزیه و همچنین استخراج تصاویر از فرمتهای مختلف سند مانند اسناد پردازش کلمه، صفحات گسترده، کتابهای الکترونیکی، ارائهها، ایمیلها، بایگانیهای ZIP و [بسیاری از قالبهای سند دیگر4 پشتیبانی میکند. .
دانلود یا پیکربندی کنید
میتوانید فایل JAR را از بخش دانلودها دانلود کنید، یا فقط تنظیمات مخزن و وابستگی را برای pom.xml برنامههای Java مبتنی بر maven خود دریافت کنید.
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
مراحل استخراج تصاویر از یک سند PDF در جاوا
در زیر نکات گام به گام آورده شده است که نحوه دریافت تصاویر از فایل PDF را با استفاده از چند خط کد Java نشان می دهد.
- یک پروژه جدید ایجاد کنید.
- API را همانطور که در بالا ذکر شد دانلود کنید یا به آخرین نسخه API به روز کنید.
- وارد کردن کلاس های زیر:
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;
- سند PDF را با استفاده از کلاس Parser بارگیری کنید.
// فایل PDF را بارگیری کنید
try (Parser parser = new Parser("path/document.pdf")) {
// کد استخراج تصویر در اینجا قرار می گیرد.
}
- تمام تصاویر را با استفاده از روش getImages از سند استخراج کنید.
// استخراج تصاویر از فایل بارگذاری شده
Iterable<PageImageArea> images = parser.getImages();
- به هر تصویر از مجموعه دسترسی داشته باشید و با استفاده از روش ذخیره آن را ذخیره کنید.
// فایل را با پسوند آنها ذخیره کنید
for (PageImageArea image : images) {
image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}
تصاویر را می توان در فرمت های مختلف تصویر مانند PNG، JPG، BMP، WebP یا GIF ذخیره کرد.
کد کامل Java – استخراج تصویر از PDF
در اینجا کد منبع کاملی وجود دارد که به شما امکان می دهد تمام تصاویر را از فایل PDF ارائه شده دریافت کنید.
// استخراج تصاویر از فایل PDF در جاوا
try (Parser parser = new Parser("path/document.pdf"))
{
// دریافت تصاویر
Iterable<PageImageArea> images = parser.getImages();
// بررسی کنید که آیا استخراج تصاویر پشتیبانی می شود
if (images == null)
{
System.out.println("Images extraction isn't supported");
return;
}
int imageCounter = 0;
// تکرار تصاویر استخراج شده
for (PageImageArea image : images)
{
image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}
}
نتایج
نمونه سند PDF
تصاویر استخراج شده
در صورت نیاز، همچنین در مقاله جداگانه ای توضیح داده شده است که چگونه می توانید تصاویر را از هر صفحه خاصی از یک سند PDF در Java استخراج کنید.
ادامه مطلب
میتوانید با استفاده از مستندات Java API استخراج داده را بررسی کنید. شما می توانید سوالات خود را از طریق تالار گفتمان با ما در میان بگذارید.