في المنشور السابق ، ناقشنا كيفية استخراج الصور من المستندات في Java. اليوم ، سوف نتطلع إلى تحقيق نفس الهدف باستخدام C #. لا تقلق إذا لم تقم بزيارة آخر مشاركة. في هذه المقالة ، سنتعلم كيفية استخراج الصور برمجيًا من مستندات PDF و Excel و PowerPoint و Word في تطبيق C # باستخدام تحليل المستندات .NET API.

سيتم تغطية الموضوعات التالية هنا:
- استخراج الصور والنص والبيانات الوصفية. NET API
- استخراج الصور من مستندات PDF
- استخراج الصور من مستندات Word و Excel و PowerPoint
- استخراج الصورة من صفحة معينة
- التنسيقات المدعومة لاستخراج الصور
استخراج الصور والنص والبيانات الوصفية. NET API

GroupDocs.Parser for .NET هو تحليل المستندات واستخراج البيانات .NET API. وهو يدعم تحليل المستندات واستخراجها من الصور والنصوص والبيانات الوصفية من مستندات معالجة الكلمات وجداول البيانات والعروض التقديمية والمحفوظات ومستندات البريد الإلكتروني. في نهاية المقالة ، تم ذكر تنسيقات المستندات التي تدعمها واجهة برمجة التطبيقات لاستخراج الصور.
في هذه المقالة ، سنستخدم واجهة برمجة التطبيقات هذه ، لذا أوصي بتنزيل ثنائياتها أو تثبيت واجهة برمجة التطبيقات من NuGet لإعداد البيئة.
استخراج الصور من مستندات PDF في C

يمكنك بسهولة استرداد جميع الصور من أي مستند PDF باتباع هذه الخطوات البسيطة.
- إنشاء كائن فئة Parser مع المستند المصدر.
- قم باستدعاء GetImages طريقة فئة Parser للحصول على مجموعة كل الصور في PageImageArea كائن.
- كرر عبر PageImageArea للحصول على كل صورة.
- احفظ الصور على القرص باستخدام طريقة حفظ من PageImageArea.
يمكن حفظ الصور المستخرجة بتنسيقات BMP و GIF و JPEG و PNG و WebP. يتم عرض الكود الكامل أدناه لتوضيح الخطوات كاملة.
// استخراج الصور من Word و Excel و PPT و PDF في C # باستخدام GroupDocs.Parser for .NET
using (Parser parser = new Parser("path/document.pdf"))
{
IEnumerable<PageImageArea> images = parser.GetImages();
ImageOptions options = new ImageOptions(ImageFormat.Png);
int imageNumber = 0;
// كرر على الصور المسترجعة
foreach (PageImageArea image in images)
{
// حفظ الصورة وطباعة فهرس الصفحة والمستطيل ونوع الصورة:
Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", image.Page.Index, image.Rectangle, image.FileType));
image.Save("imageFilePath/image-" + imageNumber.ToString() + ".png", options);
imageNumber++;
}
}

استخراج الصور من ملفات Word و Excel و PowerPoint في C
لا يقتصر الأمر على تنسيق PDF فقط ، بل يمكننا إخراج جميع الصور من مستندات معالجة الكلمات وجداول البيانات والعروض التقديمية مع قاعدة التعليمات البرمجية غير المتغيرة. ما عليك سوى تغيير مسار المستند المصدر بامتداد الملف ، وسيتم تحليل المستند الخاص بك لاستخراج جميع الصور وحفظها على القرص.
using (Parser parser = new Parser("path/document.docx")) // Word Document
// using (Parser parser = new Parser("path/document.xlsx")) // Excel Spreadhseet
// using (Parser parser = new Parser("path/document.pptx")) // Presentation
// using (Parser parser = new Parser("path/document.pdf")) // PDF Document
استخراج الصورة من صفحة وثيقة معينة في C
إذا كنت ترغب في استخراج الصور من صفحة معينة من المستند ، فيمكن القيام بذلك بسهولة باستخدام الخطوات المذكورة أدناه ورمز C #.
- الحصول على معلومات حول المستند باستخدام أسلوب GetDocumentInfo.
- من معلومات المستند ، قم بإخراج إجمالي PageCount والمعلومات الأخرى.
- استخدم طريقة GetImages (pageIndex) وقم بتمرير فهرس الصفحة الهدف إليها.
- لحفظ الصور المسترجعة ، اجتز مجموعة الصور ، واحفظ الصورة الفردية باستخدام طريقة حفظ.
// استخراج الصور من صفحة محددة من Word و Excel و PowerPoint و PDF في C # باستخدام GroupDocs.Parser for .NET
using (Parser parser = new Parser("path/document.pdf"))
{
// احصل على معلومات الوثيقة
IDocumentInfo documentInfo = parser.GetDocumentInfo();
ImageOptions options = new ImageOptions(ImageFormat.Png);
int imageNumber = 0;
// كرر عبر الصفحات
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
// اطبع رقم الصفحة
Console.WriteLine(string.Format("Page {0}/{1}", pageIndex + 1, documentInfo.PageCount));
// كرر على الصور. تجاهل الاختيار الفارغ في المثال
foreach (PageImageArea image in parser.GetImages(pageIndex))
{
// اطبع مستطيلاً ونوع الصورة
Console.WriteLine(string.Format("R: {0}, Text: {1}", image.Rectangle, image.FileType));
image.Save("imageFilePath/image-" + imageNumber.ToString() + ".png", options);
imageNumber++;
}
}
}
التنسيقات المدعومة لاستخراج الصور في C
فيما يلي تنسيقات المستندات التي يدعمها GroupDocs.Parser for .NET API لاستخراج الصور.
نوع الوثيقة | تنسيقات الملفات |
---|---|
مستندات معالجة الكلمات | DOC ، DOCX ، DOCM ، DOT ، DOTX ، DOTM ، ODT ، OTT ، RTF |
جداول البيانات | XLS، XLSX، XLSM، XLSB، XLT، XLTX، XLTM، ODS، OTS، XLA، XLAM، أرقام |
العروض التقديمية | PPT ، PPTX ، PPTM ، PPS ، PPSX ، PPSM ، POT ، POTX ، POTM ، ODP ، OTP |
المستندات المحمولة | |
رسائل البريد الإلكتروني | EML ، EMLX ، MSG |
المحفوظات | ZIP |
المزيد حول GroupDocs.Parser
- توثيق
- أمثلة التعليمات البرمجية المصدر
- مرجع API
- العائلة (واجهات برمجة التطبيقات المحلية | Cloud APIs | تطبيق مجاني على الإنترنت
دعنا نتحدث أكثر في @ منتدى الدعم المجاني