Extrahujte obrázky z dokumentů PDF v Java

PDF, který je jedním z nejoblíbenějších formátů souborů, používá téměř každý podnik a průmysl. Dokumenty PDF mohou obsahovat různorodý obsah včetně formátovaného textu, obrázků, anotací atd. Často je nutné extrahovat obsah ze souborů PDF. Zde v tomto článku budeme diskutovat o tom, jak programově extrahovat obrázky z dokumentů PDF v Java.

Java API pro extrahování obrázků ze souborů PDF

GroupDocs poskytuje GroupDocs.Parser pro vývojáře Java pro extrakci obrázků ze souborů PDF. Spolu se souborem PDF podporuje stejné rozhraní API analýzu a extrakci obrázků z různých jiných formátů dokumentů, jako jsou dokumenty pro zpracování textu, tabulky, elektronické knihy, prezentace, e-maily, archivy ZIP a mnoho dalších formátů dokumentů .

Stáhnout nebo Konfigurovat

Soubor JAR si můžete stáhnout z části ke stažení, nebo stačí získat konfigurace úložiště a závislostí pro pom.xml vašich Java aplikací založených na maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.11</version>
</dependency>

Kroky k extrahování obrázků z dokumentu PDF v Java

Následují body krok za krokem, které ukazují, jak získat obrázky ze souboru PDF pomocí několika řádků kódu Java.

Vytvořte nový projekt.
Stáhněte si API, jak je uvedeno výše, nebo aktualizujte na nejnovější verzi API.
Importujte následující třídy:

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;

Načtěte dokument PDF pomocí třídy Parser.

// Načíst soubor PDF
try (Parser parser = new Parser("path/document.pdf")) {
    // Zde je kód pro extrakci obrázku.
}

Extrahujte všechny obrázky z dokumentu pomocí metody getImages.

// Extrahujte obrázky z načteného souboru
Iterable<PageImageArea> images = parser.getImages();

Získejte přístup ke každému obrázku z kolekce a uložte jej pomocí metody uložení.

// Uložte soubor s jejich příponou
for (PageImageArea image : images)  {
    image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}

Obrázky lze ukládat v různých formátech, jako je PNG, JPG, BMP, WebP nebo GIF.

Java Complete Code – extrakce obrázků z PDF

Zde je kompletní zdrojový kód, který vám umožní získat všechny obrázky z poskytnutého souboru PDF.

// Extrahujte obrázky ze souboru PDF v Java
try (Parser parser = new Parser("path/document.pdf")) 
{
    // Získejte obrázky
    Iterable<PageImageArea> images = parser.getImages();
    
    // Zkontrolujte, zda je podporována extrakce obrázků
    if (images == null) 
    {
        System.out.println("Images extraction isn't supported");
        return;
    }
    
    int imageCounter = 0;
    // Opakujte extrahované obrázky
    for (PageImageArea image : images) 
    {
        image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
    }
}

Výsledek

Ukázkový dokument PDF

Extrahované obrázky

Pokud požadujete, v samostatném článku je také vysvětleno, jak můžete Extrahovat obrázky z libovolné konkrétní stránky dokumentu PDF v Java.

Přečtěte si více

Můžete prozkoumat více o extrakci dat Java API pomocí jeho dokumentace. Své dotazy s námi můžete sdílet prostřednictvím našeho fóra.

Java API pro extrahování obrázků ze souborů PDF#

Stáhnout nebo Konfigurovat#

Kroky k extrahování obrázků z dokumentu PDF v Java#

Java Complete Code – extrakce obrázků z PDF#

Výsledek#

Přečtěte si více#

Viz také#