يعد PDF أحد أكثر تنسيقات الملفات شيوعًا وهو قيد الاستخدام من قبل كل الأعمال والصناعة تقريبًا. يمكن أن تحتوي مستندات PDF على محتوى متنوع بما في ذلك النص المنسق والصور والتعليقات التوضيحية وما إلى ذلك. وغالبًا ما يكون مطلوبًا لاستخراج المحتوى من ملفات PDF. هنا في هذه المقالة ، سنناقش كيفية استخراج الصور برمجيًا من مستندات PDF في Java.

Java API لاستخراج الصور من ملفات PDF

يوفر GroupDocs GroupDocs.Parser لمطوري Java لاستخراج الصور من ملفات PDF. إلى جانب ملف PDF ، تدعم نفس واجهة برمجة التطبيقات التحليل وكذلك استخراج الصور من تنسيقات مستندات أخرى متنوعة مثل مستندات معالجة الكلمات وجداول البيانات والكتب الإلكترونية والعروض التقديمية ورسائل البريد الإلكتروني والمحفوظات المضغوطة و العديد من تنسيقات المستندات الأخرى .

تنزيل أو تكوين

يمكنك تنزيل ملف JAR من قسم التنزيلات ، أو مجرد الحصول على المستودع وتكوينات التبعية لـ pom.xml لتطبيقات Java المستندة إلى المخضرم.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.11</version>
</dependency>

خطوات استخراج الصور من مستند PDF في Java

فيما يلي النقاط خطوة بخطوة التي توضح كيفية الحصول على الصور من ملف PDF باستخدام بضعة أسطر من كود Java.

  1. أنشئ مشروعًا جديدًا.
  2. قم بتنزيل API كما هو مذكور أعلاه أو قم بالتحديث إلى أحدث إصدار من API.
  3. استيراد الفئات التالية:
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;
  1. قم بتحميل مستند PDF باستخدام فئة المحلل اللغوي.
// قم بتحميل ملف PDF
try (Parser parser = new Parser("path/document.pdf")) {
    // يظهر رمز استخراج الصورة هنا.
}
  1. استخرج جميع الصور من المستند باستخدام طريقة getImages.
// استخراج الصور من الملف المحمل
Iterable<PageImageArea> images = parser.getImages();
  1. الوصول إلى كل صورة من المجموعة وحفظها باستخدام طريقة الحفظ.
// احفظ الملف بامتدادها
for (PageImageArea image : images)  {
    image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}

يمكن حفظ الصور بتنسيقات صور مختلفة مثل PNG أو JPG أو BMP أو WebP أو GIF.

كود Java الكامل - استخراج الصور من PDF

إليك الكود المصدري الكامل الذي يسمح لك بالحصول على جميع الصور من ملف PDF المقدم.

// استخراج الصور من ملف PDF في جافا
try (Parser parser = new Parser("path/document.pdf")) 
{
    // احصل على الصور
    Iterable<PageImageArea> images = parser.getImages();
    
    // تحقق مما إذا كان استخراج الصور مدعومًا
    if (images == null) 
    {
        System.out.println("Images extraction isn't supported");
        return;
    }
    
    int imageCounter = 0;
    // كرر الصور المستخرجة
    for (PageImageArea image : images) 
    {
        image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
    }
}

نتائج

نموذج مستند PDF

وثيقة PDF بها صور لاستخراجها.

الصور المستخرجة

الصور المستخرجة من ملف PDF.

إذا كنت بحاجة ، يتم شرح ذلك أيضًا في مقال منفصل يوضح كيف يمكنك استخراج الصور من أي صفحة محددة من مستند PDF في Java.

قراءة المزيد

يمكنك استكشاف المزيد حول Java API لاستخراج البيانات باستخدام التوثيق. يمكنك مشاركة استفساراتك معنا عبر المنتدى.

أنظر أيضا