ב פוסט הקודם, דנו כיצד לחלץ תמונות ממסמכים ב-Java. היום, אנו נחפש להשיג את אותה מטרה באמצעות C#. אל דאגה אם לא ביקרת בפוסט האחרון. במאמר זה, נלמד לחלץ תמונות באופן פרוגרמטי ממסמכי PDF, Excel, PowerPoint ו-Word ביישום C# באמצעות ניתוח מסמכים ב-.NET API.

חלץ תמונות ממסמכים ב-.NET

הנושאים הבאים ידונו כאן:

חילוץ תמונה, טקסט ומטא נתונים .NET API

ניתוח מסמכים וחילוץ נתונים ב-.NET

GroupDocs.Parser עבור .NET הוא ניתוח מסמכים והפקת נתונים .NET API. הוא תומך בניתוח מסמכים ובחילוץ של תמונות, טקסט ומטא נתונים ממסמכי עיבוד תמלילים, גיליונות אלקטרוניים, מצגות, ארכיונים ומסמכי דואר אלקטרוני. בסוף המאמר, [מוזכרים] פורמטים של מסמכים 9 הנתמכים על ידי ה-API לחילוץ תמונות.

במאמר זה, נשתמש ב-API הזה, אז הייתי ממליץ להוריד את הקבצים הבינאריים שלו או להתקין את ה-API מ-NuGet כדי להכין את הסביבה.

חלץ תמונות ממסמכי PDF ב-C#

מסמך PDF לחילוץ תמונות

אתה יכול לאחזר בקלות את כל התמונות מכל מסמך PDF על ידי ביצוע שלבים פשוטים אלה.

  1. הצג את אובייקט המחלקה Parser עם מסמך המקור.
  2. קרא לשיטת GetImages של המחלקה Parser כדי לקבל את האוסף של כל התמונות באובייקטים PageImageArea.
  3. חזור על PageImageArea כדי לקבל כל תמונה.
  4. שמור תמונות בדיסק בשיטת Save של PageImageArea.

ניתן לשמור תמונות שחולצו בפורמטים BMP, GIF, JPEG, PNG ו- WebP. הקוד המלא מוצג להלן כדי להדגים את כל השלבים.

// חלץ תמונות מ-Word, Excel, PPT, PDF ב-C# באמצעות GroupDocs.Parser עבור NET.
using (Parser parser = new Parser("path/document.pdf"))
{
    IEnumerable<PageImageArea> images = parser.GetImages();
    ImageOptions options = new ImageOptions(ImageFormat.Png);
    int imageNumber = 0;
    // חזור על תמונות שאוחזרו
    foreach (PageImageArea image in images)
    {
        // שמור תמונה והדפס אינדקס עמוד, מלבן וסוג תמונה:
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", image.Page.Index, image.Rectangle, image.FileType));
        image.Save("imageFilePath/image-" + imageNumber.ToString() + ".png", options);
        imageNumber++;
    }
}
חילצו תמונות ממסמך באמצעות GroupDocs.Parser

חילוץ תמונה מקובצי Word, Excel, PowerPoint ב-C#

לא מוגבל לפורמט PDF בלבד, אנו יכולים להוציא את כל התמונות ממסמכי עיבוד תמלילים, גיליונות אלקטרוניים, מצגות, עם בסיס הקוד ללא שינוי. פשוט שנה את נתיב מסמך המקור עם סיומת הקובץ, המסמך שלך ינותח כדי לחלץ ולשמור את כל התמונות בדיסק.

using (Parser parser = new Parser("path/document.docx")) // Word Document
// using (Parser parser = new Parser("path/document.xlsx")) // Excel Spreadhseet
// using (Parser parser = new Parser("path/document.pptx")) // Presentation
// using (Parser parser = new Parser("path/document.pdf")) // PDF Document

חלץ תמונות מדף מסמך ספציפי ב-C#

אם ברצונך לחלץ תמונות מעמוד מסוים של המסמך, ניתן לעשות זאת בקלות באמצעות השלבים המוזכרים להלן וקוד C#.

  • קבל את המידע על המסמך בשיטת GetDocumentInfo.
  • ממידע המסמך, הוצא את סך PageCount ומידע אחר.
  • השתמש בשיטת GetImages(pageIndex) והעבר אליה את אינדקס עמוד היעד שלך.
  • כדי לשמור את התמונות שאוחזרו, חצו את אוסף התמונות ושמרו את התמונה הבודדת בשיטת Save.
// חלץ תמונות מדף ספציפי של Word, Excel, PowerPoint, PDF ב-C# באמצעות GroupDocs.Parser עבור NET.
using (Parser parser = new Parser("path/document.pdf"))
{
    // קבל את פרטי המסמך
    IDocumentInfo documentInfo = parser.GetDocumentInfo();
    ImageOptions options = new ImageOptions(ImageFormat.Png);
    int imageNumber = 0;

    // חזרה על דפים
   for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
    {
        // הדפס מספר עמוד 
        Console.WriteLine(string.Format("Page {0}/{1}", pageIndex + 1, documentInfo.PageCount));
        // חזרה על תמונות. התעלמות מבדיקת null בדוגמה
        foreach (PageImageArea image in parser.GetImages(pageIndex))
        {
            // הדפס מלבן וסוג תמונה
            Console.WriteLine(string.Format("R: {0}, Text: {1}", image.Rectangle, image.FileType));
            image.Save("imageFilePath/image-" + imageNumber.ToString() + ".png", options);
            imageNumber++;
        }
    }
}

פורמטים נתמכים לחילוץ תמונה ב-C#

להלן פורמטים של מסמכים הנתמכים על ידי GroupDocs.Parser עבור .NET API לחילוץ תמונות.

| סוג מסמך | פורמטי קבצים |

| — | —- |

| מסמכי עיבוד תמלילים | DOC, DOCX, DOCM, DOT, DOTX, DOTM, ODT, OTT, RTF |

| גיליונות אלקטרוניים | XLS, XLSX, XLSM, XLSB, XLT, XLTX, XLTM, ODS, OTS, XLA, XLAM, NUMBERS |

| מצגות | PPT, PPTX, PPTM, PPS, PPSX, PPSM, POT, POTX, POTM, ODP, OTP |

| מסמכים ניידים | PDF |

| מיילים | EML, EMLX, MSG |

| ארכיון | ZIP |

עוד על GroupDocs.Parser

בוא נדבר עוד קצת @ פורום תמיכה בחינם

מאמרים קשורים