في المنشور السابق ، ناقشنا كيفية استخراج الصور من المستندات في Java. اليوم ، سوف نتطلع إلى تحقيق نفس الهدف باستخدام C #. لا تقلق إذا لم تقم بزيارة آخر مشاركة. في هذه المقالة ، سنتعلم كيفية استخراج الصور برمجيًا من مستندات PDF و Excel و PowerPoint و Word في تطبيق C # باستخدام تحليل المستندات .NET API.

استخراج الصور من المستندات في .NET

سيتم تغطية الموضوعات التالية هنا:

استخراج الصور والنص والبيانات الوصفية. NET API

تحليل المستندات واستخراج البيانات في .NET

GroupDocs.Parser for .NET هو تحليل المستندات واستخراج البيانات .NET API. وهو يدعم تحليل المستندات واستخراجها من الصور والنصوص والبيانات الوصفية من مستندات معالجة الكلمات وجداول البيانات والعروض التقديمية والمحفوظات ومستندات البريد الإلكتروني. في نهاية المقالة ، تم ذكر تنسيقات المستندات التي تدعمها واجهة برمجة التطبيقات لاستخراج الصور.

في هذه المقالة ، سنستخدم واجهة برمجة التطبيقات هذه ، لذا أوصي بتنزيل ثنائياتها أو تثبيت واجهة برمجة التطبيقات من NuGet لإعداد البيئة.

استخراج الصور من مستندات PDF في C

وثيقة PDF لاستخراج الصور

يمكنك بسهولة استرداد جميع الصور من أي مستند PDF باتباع هذه الخطوات البسيطة.

  1. إنشاء كائن فئة Parser مع المستند المصدر.
  2. قم باستدعاء GetImages طريقة فئة Parser للحصول على مجموعة كل الصور في PageImageArea كائن.
  3. كرر عبر PageImageArea للحصول على كل صورة.
  4. احفظ الصور على القرص باستخدام طريقة حفظ من PageImageArea.

يمكن حفظ الصور المستخرجة بتنسيقات BMP و GIF و JPEG و PNG و WebP. يتم عرض الكود الكامل أدناه لتوضيح الخطوات كاملة.

// استخراج الصور من Word و Excel و PPT و PDF في C # باستخدام GroupDocs.Parser for .NET
using (Parser parser = new Parser("path/document.pdf"))
{
    IEnumerable<PageImageArea> images = parser.GetImages();
    ImageOptions options = new ImageOptions(ImageFormat.Png);
    int imageNumber = 0;
    // كرر على الصور المسترجعة
    foreach (PageImageArea image in images)
    {
        // حفظ الصورة وطباعة فهرس الصفحة والمستطيل ونوع الصورة:
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", image.Page.Index, image.Rectangle, image.FileType));
        image.Save("imageFilePath/image-" + imageNumber.ToString() + ".png", options);
        imageNumber++;
    }
}
الصور المستخرجة من المستند باستخدام GroupDocs.Parser

استخراج الصور من ملفات Word و Excel و PowerPoint في C

لا يقتصر الأمر على تنسيق PDF فقط ، بل يمكننا إخراج جميع الصور من مستندات معالجة الكلمات وجداول البيانات والعروض التقديمية مع قاعدة التعليمات البرمجية غير المتغيرة. ما عليك سوى تغيير مسار المستند المصدر بامتداد الملف ، وسيتم تحليل المستند الخاص بك لاستخراج جميع الصور وحفظها على القرص.

using (Parser parser = new Parser("path/document.docx")) // Word Document
// using (Parser parser = new Parser("path/document.xlsx")) // Excel Spreadhseet
// using (Parser parser = new Parser("path/document.pptx")) // Presentation
// using (Parser parser = new Parser("path/document.pdf")) // PDF Document

استخراج الصورة من صفحة وثيقة معينة في C

إذا كنت ترغب في استخراج الصور من صفحة معينة من المستند ، فيمكن القيام بذلك بسهولة باستخدام الخطوات المذكورة أدناه ورمز C #.

  • الحصول على معلومات حول المستند باستخدام أسلوب GetDocumentInfo.
  • من معلومات المستند ، قم بإخراج إجمالي PageCount والمعلومات الأخرى.
  • استخدم طريقة GetImages (pageIndex) وقم بتمرير فهرس الصفحة الهدف إليها.
  • لحفظ الصور المسترجعة ، اجتز مجموعة الصور ، واحفظ الصورة الفردية باستخدام طريقة حفظ.
// استخراج الصور من صفحة محددة من Word و Excel و PowerPoint و PDF في C # باستخدام GroupDocs.Parser for .NET
using (Parser parser = new Parser("path/document.pdf"))
{
    // احصل على معلومات الوثيقة
    IDocumentInfo documentInfo = parser.GetDocumentInfo();
    ImageOptions options = new ImageOptions(ImageFormat.Png);
    int imageNumber = 0;

    // كرر عبر الصفحات
    for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
    {
        // اطبع رقم الصفحة 
        Console.WriteLine(string.Format("Page {0}/{1}", pageIndex + 1, documentInfo.PageCount));
        // كرر على الصور. تجاهل الاختيار الفارغ في المثال
        foreach (PageImageArea image in parser.GetImages(pageIndex))
        {
            // اطبع مستطيلاً ونوع الصورة
            Console.WriteLine(string.Format("R: {0}, Text: {1}", image.Rectangle, image.FileType));
            image.Save("imageFilePath/image-" + imageNumber.ToString() + ".png", options);
            imageNumber++;
        }
    }
}

التنسيقات المدعومة لاستخراج الصور في C

فيما يلي تنسيقات المستندات التي يدعمها GroupDocs.Parser for .NET API لاستخراج الصور.

نوع الوثيقة تنسيقات الملفات
مستندات معالجة الكلمات DOC ، DOCX ، DOCM ، DOT ، DOTX ، DOTM ، ODT ، OTT ، RTF
جداول البيانات XLS، XLSX، XLSM، XLSB، XLT، XLTX، XLTM، ODS، OTS، XLA، XLAM، أرقام
العروض التقديمية PPT ، PPTX ، PPTM ، PPS ، PPSX ، PPSM ، POT ، POTX ، POTM ، ODP ، OTP
المستندات المحمولة PDF
رسائل البريد الإلكتروني EML ، EMLX ، MSG
المحفوظات ZIP

المزيد حول GroupDocs.Parser

دعنا نتحدث أكثر في @ منتدى الدعم المجاني

مقالات ذات صلة