PDF, een van de meest populaire bestandsindelingen, wordt door bijna elk bedrijf en elke branche gebruikt. PDF-documenten kunnen diverse inhoud bevatten, waaronder opgemaakte tekst, afbeeldingen, annotaties, enz. Vaak is het nodig om de inhoud uit de PDF-bestanden te extraheren. Hier in dit artikel bespreken we hoe u afbeeldingen programmatisch kunt extraheren uit PDF-documenten in Java.

Java API om afbeeldingen uit PDF-bestanden te extraheren

GroupDocs biedt GroupDocs.Parser voor Java-ontwikkelaars voor het extraheren van afbeeldingen uit PDF-bestanden. Samen met het PDF-bestand ondersteunt dezelfde API zowel het parseren als het extraheren van afbeeldingen uit verschillende andere documentindelingen, zoals tekstverwerkingsdocumenten, spreadsheets, eBooks, presentaties, e-mails, ZIP-archieven en vele andere documentindelingen .

Downloaden of configureren

U kunt het JAR-bestand downloaden van de downloads-sectie, of gewoon de repository- en afhankelijkheidsconfiguraties voor de pom.xml van uw maven-gebaseerde Java-applicaties ophalen.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.11</version>
</dependency>

Stappen om afbeeldingen uit een PDF-document in Java te extraheren

Hieronder volgen de stapsgewijze punten die laten zien hoe u afbeeldingen uit het PDF-bestand kunt halen met behulp van een paar regels Java-code.

  1. Maak een nieuw project aan.
  2. Download de API zoals hierboven vermeld of update naar de nieuwste API-versie.
  3. Importeer de volgende klassen:
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;
  1. Laad het PDF-document met behulp van de klasse Parser.
// PDF-bestand laden
try (Parser parser = new Parser("path/document.pdf")) {
    // De beeldextractiecode komt hier.
}
  1. Extraheer alle afbeeldingen uit het document met behulp van de getImages-methode.
// Extraheer afbeeldingen uit het geladen bestand
Iterable<PageImageArea> images = parser.getImages();
  1. Open elke afbeelding uit de verzameling en sla deze op met behulp van de opslagmethode.
// Sla het bestand op met hun extensie
for (PageImageArea image : images)  {
    image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}

Afbeeldingen kunnen worden opgeslagen in verschillende afbeeldingsindelingen, zoals PNG, JPG, BMP, WebP of GIF.

Java Complete Code – Beeldextractie uit PDF

Hier is de volledige broncode waarmee u alle afbeeldingen uit het meegeleverde PDF-bestand kunt halen.

// Extraheer afbeeldingen uit een PDF-bestand in Java
try (Parser parser = new Parser("path/document.pdf")) 
{
    // Krijg afbeeldingen
    Iterable<PageImageArea> images = parser.getImages();
    
    // Controleer of het extraheren van afbeeldingen wordt ondersteund
    if (images == null) 
    {
        System.out.println("Images extraction isn't supported");
        return;
    }
    
    int imageCounter = 0;
    // Herhaal geëxtraheerde afbeeldingen
    for (PageImageArea image : images) 
    {
        image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
    }
}

Resultaten

Voorbeeld PDF-document

PDF-document met afbeeldingen om uit te pakken.

Geëxtraheerde afbeeldingen

geëxtraheerde afbeeldingen uit de PDF.

Indien nodig wordt in een apart artikel ook uitgelegd hoe u Afbeeldingen uit een specifieke pagina van een PDF-document in Java kunt extraheren.

Lees verder

U kunt meer ontdekken over de Java API voor gegevensextractie met behulp van de bijbehorende documentatie. U kunt uw vragen met ons delen via ons forum.

Zie ook