PDF, menjadi salah satu format file paling populer digunakan oleh hampir setiap bisnis dan industri. Dokumen PDF dapat berisi beragam konten termasuk teks yang diformat, gambar, anotasi, dll. Seringkali diperlukan untuk mengekstrak konten dari file PDF. Di sini, di artikel ini, kita akan membahas cara mengekstrak gambar secara terprogram dari dokumen PDF di Java.

Java API untuk Mengekstrak Gambar dari File PDF

GroupDocs menyediakan GroupDocs.Parser untuk pengembang Java untuk mengekstraksi gambar dari file PDF. Bersamaan dengan file PDF, API yang sama mendukung parsing serta ekstraksi gambar dari berbagai format dokumen lain seperti dokumen pengolah kata, spreadsheet, eBook, presentasi, email, arsip ZIP, dan banyak format dokumen lainnya .

Unduh atau Konfigurasi

Anda dapat mengunduh file JAR dari bagian unduhan, atau hanya mendapatkan konfigurasi repositori dan ketergantungan untuk pom.xml aplikasi Java berbasis maven Anda.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.11</version>
</dependency>

Langkah-langkah untuk Mengekstrak Gambar dari dokumen PDF di Java

Berikut ini adalah poin langkah demi langkah yang menunjukkan cara mendapatkan gambar dari file PDF menggunakan beberapa baris kode Java.

  1. Buat proyek baru.
  2. Unduh API seperti yang disebutkan di atas atau perbarui ke versi API terbaru.
  3. Impor kelas-kelas berikut:
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;
  1. Muat dokumen PDF menggunakan kelas Parser.
// Muat file PDF
try (Parser parser = new Parser("path/document.pdf")) {
    // Kode Ekstraksi Gambar ada di sini.
}
  1. Ekstrak semua gambar dari dokumen menggunakan metode getImages.
// Ekstrak Gambar dari file yang dimuat
Iterable<PageImageArea> images = parser.getImages();
  1. Akses setiap gambar dari koleksi dan simpan menggunakan metode simpan.
// Simpan file dengan ekstensinya
for (PageImageArea image : images)  {
    image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}

Gambar dapat disimpan dalam berbagai format gambar yang berbeda seperti PNG, JPG, BMP, WebP, atau GIF.

Kode Lengkap Java – Ekstraksi Gambar dari PDF

Berikut adalah kode sumber lengkap yang memungkinkan Anda mendapatkan semua gambar dari file PDF yang disediakan.

// Ekstrak Gambar dari file PDF di Java
try (Parser parser = new Parser("path/document.pdf")) 
{
    // Dapatkan gambar
    Iterable<PageImageArea> images = parser.getImages();
    
    // Periksa apakah ekstraksi gambar didukung
    if (images == null) 
    {
        System.out.println("Images extraction isn't supported");
        return;
    }
    
    int imageCounter = 0;
    // Ulangi gambar yang diekstrak
    for (PageImageArea image : images) 
    {
        image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
    }
}

Hasil

Contoh Dokumen PDF

Dokumen PDF memiliki gambar untuk diekstraksi.

Gambar yang Diekstrak

gambar yang diekstraksi dari PDF.

Jika Anda memerlukan, juga dijelaskan dalam artikel terpisah bahwa bagaimana Anda dapat Mengekstrak Gambar dari Halaman Tertentu dari Dokumen PDF di Java.

Baca selengkapnya

Anda dapat mempelajari lebih lanjut tentang ekstraksi data Java API menggunakan dokumentasi. Anda dapat membagikan pertanyaan Anda kepada kami melalui forum kami.

Lihat juga