PDF, een van de meest populaire bestandsindelingen, wordt door bijna elk bedrijf en elke branche gebruikt. PDF-documenten kunnen diverse inhoud bevatten, waaronder opgemaakte tekst, afbeeldingen, annotaties, enz. Vaak is het nodig om de inhoud uit de PDF-bestanden te extraheren. Hier in dit artikel bespreken we hoe u afbeeldingen programmatisch kunt extraheren uit PDF-documenten in Java.
Java API om afbeeldingen uit PDF-bestanden te extraheren
GroupDocs biedt GroupDocs.Parser voor Java-ontwikkelaars voor het extraheren van afbeeldingen uit PDF-bestanden. Samen met het PDF-bestand ondersteunt dezelfde API zowel het parseren als het extraheren van afbeeldingen uit verschillende andere documentindelingen, zoals tekstverwerkingsdocumenten, spreadsheets, eBooks, presentaties, e-mails, ZIP-archieven en vele andere documentindelingen .
Downloaden of configureren
U kunt het JAR-bestand downloaden van de downloads-sectie, of gewoon de repository- en afhankelijkheidsconfiguraties voor de pom.xml van uw maven-gebaseerde Java-applicaties ophalen.
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.11</version>
</dependency>
Stappen om afbeeldingen uit een PDF-document in Java te extraheren
Hieronder volgen de stapsgewijze punten die laten zien hoe u afbeeldingen uit het PDF-bestand kunt halen met behulp van een paar regels Java-code.
- Maak een nieuw project aan.
- Download de API zoals hierboven vermeld of update naar de nieuwste API-versie.
- Importeer de volgende klassen:
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;
- Laad het PDF-document met behulp van de klasse Parser.
// PDF-bestand laden
try (Parser parser = new Parser("path/document.pdf")) {
// De beeldextractiecode komt hier.
}
- Extraheer alle afbeeldingen uit het document met behulp van de getImages-methode.
// Extraheer afbeeldingen uit het geladen bestand
Iterable<PageImageArea> images = parser.getImages();
- Open elke afbeelding uit de verzameling en sla deze op met behulp van de opslagmethode.
// Sla het bestand op met hun extensie
for (PageImageArea image : images) {
image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}
Afbeeldingen kunnen worden opgeslagen in verschillende afbeeldingsindelingen, zoals PNG, JPG, BMP, WebP of GIF.
Java Complete Code – Beeldextractie uit PDF
Hier is de volledige broncode waarmee u alle afbeeldingen uit het meegeleverde PDF-bestand kunt halen.
// Extraheer afbeeldingen uit een PDF-bestand in Java
try (Parser parser = new Parser("path/document.pdf"))
{
// Krijg afbeeldingen
Iterable<PageImageArea> images = parser.getImages();
// Controleer of het extraheren van afbeeldingen wordt ondersteund
if (images == null)
{
System.out.println("Images extraction isn't supported");
return;
}
int imageCounter = 0;
// Herhaal geëxtraheerde afbeeldingen
for (PageImageArea image : images)
{
image.save(String.format("path/image_%d" + image.getFileType().getExtension(), imageCounter++));
}
}
Resultaten
Voorbeeld PDF-document
Geëxtraheerde afbeeldingen
Indien nodig wordt in een apart artikel ook uitgelegd hoe u Afbeeldingen uit een specifieke pagina van een PDF-document in Java kunt extraheren.
Lees verder
U kunt meer ontdekken over de Java API voor gegevensextractie met behulp van de bijbehorende documentatie. U kunt uw vragen met ons delen via ons forum.