PDF, který je jedním z nejoblíbenějších formátů souborů, používá téměř každý podnik a průmysl. Dokumenty PDF mohou obsahovat různorodý obsah včetně formátovaného textu, obrázků, anotací atd. Často je nutné extrahovat obsah ze souborů PDF. Zde v tomto článku budeme diskutovat o tom, jak programově extrahovat obrázky z dokumentů PDF v Java.
Java API pro extrahování obrázků ze souborů PDF
GroupDocs poskytuje GroupDocs.Parser pro vývojáře Java pro extrakci obrázků ze souborů PDF. Spolu se souborem PDF podporuje stejné rozhraní API analýzu a extrakci obrázků z různých jiných formátů dokumentů, jako jsou dokumenty pro zpracování textu, tabulky, elektronické knihy, prezentace, e-maily, archivy ZIP a mnoho dalších formátů dokumentů .
Stáhnout nebo Konfigurovat
Soubor JAR si můžete stáhnout z části ke stažení, nebo stačí získat konfigurace úložiště a závislostí pro pom.xml vašich Java aplikací založených na maven.
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
Kroky k extrahování obrázků z dokumentu PDF v Java
Následují body krok za krokem, které ukazují, jak získat obrázky ze souboru PDF pomocí několika řádků kódu Java.
- Vytvořte nový projekt.
- Stáhněte si API, jak je uvedeno výše, nebo aktualizujte na nejnovější verzi API.
- Importujte následující třídy:
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;
- Načtěte dokument PDF pomocí třídy Parser.
// Načíst soubor PDF
try (Parser parser = new Parser("path/document.pdf")) {
// Zde je kód pro extrakci obrázku.
}
- Extrahujte všechny obrázky z dokumentu pomocí metody getImages.
// Extrahujte obrázky z načteného souboru
Iterable<PageImageArea> images = parser.getImages();
- Získejte přístup ke každému obrázku z kolekce a uložte jej pomocí metody uložení.
// Uložte soubor s jejich příponou
for (PageImageArea image : images) {
image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}
Obrázky lze ukládat v různých formátech, jako je PNG, JPG, BMP, WebP nebo GIF.
Java Complete Code – extrakce obrázků z PDF
Zde je kompletní zdrojový kód, který vám umožní získat všechny obrázky z poskytnutého souboru PDF.
// Extrahujte obrázky ze souboru PDF v Java
try (Parser parser = new Parser("path/document.pdf"))
{
// Získejte obrázky
Iterable<PageImageArea> images = parser.getImages();
// Zkontrolujte, zda je podporována extrakce obrázků
if (images == null)
{
System.out.println("Images extraction isn't supported");
return;
}
int imageCounter = 0;
// Opakujte extrahované obrázky
for (PageImageArea image : images)
{
image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}
}
Výsledek
Ukázkový dokument PDF

Extrahované obrázky

Pokud požadujete, v samostatném článku je také vysvětleno, jak můžete Extrahovat obrázky z libovolné konkrétní stránky dokumentu PDF v Java.
Přečtěte si více
Můžete prozkoumat více o extrakci dat Java API pomocí jeho dokumentace. Své dotazy s námi můžete sdílet prostřednictvím našeho fóra.