Portable Document Format (PDF) adalah format dokumen populer dan banyak digunakan yang dikembangkan oleh Adobe. Dokumen PDF dapat berisi berbagai konten termasuk teks yang diformat, gambar, anotasi, bidang formulir, dll. Mem-parsing dokumen PDF secara terprogram adalah kasus penggunaan yang populer dan ada banyak cara untuk mengekstraksi teks. Namun, mengekstraksi gambar dari dokumen PDF adalah tugas yang rumit. Artikel ini menunjukkan betapa mudahnya Anda mengekstrak gambar dari dokumen PDF secara terprogram dalam C#.

.NET API untuk Mengekstrak Gambar dari File PDF

GroupDocs.Parser for .NET API akan berperan dalam ekstraksi gambar dari file PDF. Bersamaan dengan PDF, API mendukung parsing, dan ekstraksi gambar dari dokumen pengolah kata, spreadsheet, eBuku, presentasi, email, arsip ZIP, dan banyak format dokumen lainnya.

Anda dapat mengunduh penginstal DLL atau MSI dari bagian unduhan atau menginstal API di aplikasi .NET Anda melalui NuGet.

PM> Install-Package GroupDocs.Parser

Langkah-langkah untuk Mengekstrak Gambar dari dokumen PDF menggunakan C#

Mari kita lihat langkah demi langkah cara mendapatkan gambar dari file PDF menggunakan beberapa baris kode C#.

  1. Buat proyek baru.
  2. Unduh API seperti yang disebutkan di atas atau perbarui ke versi API terbaru.
  3. Tambahkan ruang nama berikut:
using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
  1. Muat dokumen PDF menggunakan kelas Parser.
// Buat instance kelas Parser
using (Parser parser = new Parser("path/document.pdf"))
{
  // kode Anda masuk ke sini.
}
  1. Ekstrak gambar dari dokumen menggunakan metode GetImages.
// Ekstrak gambar
IEnumerable<PageImageArea> images = parser.GetImages();

// Periksa apakah ekstraksi gambar didukung
if (images == null)
{
    Console.WriteLine("Images extraction isn't supported");
    return;
}
  1. Akses setiap gambar dari koleksi dan simpan menggunakan metode Simpan.
// Ulangi gambar yang diambil
foreach (PageImageArea image in images)
{
    // Simpan Gambar
    image.Save("imageFilePath/image-" + imageNumber.ToString() + ".jpeg", new ImageOptions(ImageFormat.Jpeg));
    imageNumber++;
}

Anda dapat menyimpan gambar dalam berbagai gambar berbeda seperti JPG, PNG, BMP, WebP, atau GIF.

C# Kode Lengkap – Ekstraksi Gambar dari PDF

Berikut adalah kode lengkap yang memungkinkan Anda mendapatkan semua gambar dari file PDF.

// Ekstrak gambar dari PDF menggunakan C#
using (Parser parser = new Parser("path/document.pdf"))
{
    IEnumerable<PageImageArea> images = parser.GetImages();
    // Periksa apakah ekstraksi gambar didukung
    if (images == null) 
    {
        Console.WriteLine("Images extraction isn't supported");
        return;
    }
    
    ImageOptions options = new ImageOptions(ImageFormat.Jpeg);
    int imageNumber = 0;
    
    // Ulangi gambar yang diambil
    foreach (PageImageArea image in images)
    {
        // Simpan Gambar
        image.Save("imageFilePath/image-" + imageNumber.ToString() + ".jpeg", options);
        imageNumber++;
    }
}

Hasil

Contoh Dokumen PDF

Dokumen PDF memiliki gambar untuk diekstrak.

Gambar yang Diekstrak

gambar yang diekstrak dari PDF.

Jika Anda membutuhkan, juga dijelaskan dalam artikel terpisah bahwa bagaimana Anda dapat Mengekstrak Gambar dari Halaman Tertentu dari Dokumen PDF menggunakan C#.

Baca selengkapnya

Anda dapat mempelajari lebih lanjut tentang API ekstraksi data .NET menggunakan dokumentasi. Selain itu, Anda dapat membagikan pertanyaan Anda kepada kami melalui forum kami.

Lihat juga