Wilt u het geheim of de gevoelige informatie in de documenten beveiligen? Het is mogelijk, zelfs als dit gewone tekstuele informatie is of tekst met het gescande document met afbeeldingen. De eerdere artikelen kunnen u helpen uw zoekopdracht te verfijnen, waar we de verschillende strategieën om woorden te zoeken en zoeksynoniemen in meerdere documenten bespraken. Dit artikel helpt u bij het redigeren van PDF-tekst en tekst in afbeeldingen in een document met behulp van Java.
De volgende onderwerpen komen hieronder aan bod:
- Redactie van tekst en afbeeldingen – Java API
- Bewerk PDF-tekst en gescande informatie met behulp van Java
Java API voor redactie van tekst en afbeeldingen
GroupDocs.Redaction biedt de redactie-oplossing om de geheime informatie te beveiligen. Met de Java API kunt u vertrouwelijke informatie in documenten van verschillende bestandsindelingen redigeren of verwijderen uit uw op Java gebaseerde applicaties. Naast de eenvoudige tekstredactie en rastering, maakt de API het ook mogelijk om de tekst in afbeeldingen te identificeren die zich in elk document kunnen bevinden, zoals de meest gebruikte gescande PDF-bestanden. De volledige lijst met ondersteunde bestandsindelingen is beschikbaar in de documentatie.
Downloaden of configureren
U kunt het JAR-bestand downloaden van de downloads-sectie, of gewoon de nieuwste repository- en afhankelijkheidsconfiguraties voor pom.xml van uw maven-gebaseerde Java-applicaties downloaden.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-redaction</artifactId>
<version>21.6</version>
</dependency>
Bewerk PDF-tekst en gescande afbeeldingstekst met Java
We hebben de verschillende [manieren om tekst in documenten te zoeken en te vervangen] al besproken10. We kunnen echter ook tekst in afbeeldingen redigeren. Ik zal het volgende PDF-document gebruiken, dat wat tekst bevat en ook een afbeelding met wat tekst. Hiervoor moeten we OCR combineren met het redactieproces. Eerst identificeren we de tekst in het document en ook de tekst die zich in de afbeelding van het document bevindt. Vervolgens bedekken we het met een zwarte doos om alle legale, vertrouwelijke of geheime informatie programmatisch te verbergen, zelfs als deze als tekst in een gescande documentafbeelding is.
De volgende stappen zullen de tekst in de PDF-documenten detecteren en vervangen, die gewone tekst of tekst in de ingesloten afbeeldingen bevat.
- Bereid de editor-instellingen voor met behulp van een OCR-connector.
- Laad uw PDF-bestand met behulp van de klasse Redactor en ook of er specifieke laadopties vereist zijn.
- Definieer uw vervangingsopties. Ik kies ervoor om de tekst zwart te maken.
- Bereid de redacties voor; gebruik de juiste redactiestrategie zoals Frase Redaction of RegEx redactie.
- Pas de redacties toe met behulp van de methode toepassen.
- Sla het geredigeerde document op met de methode save.
De volgende broncode redigeert de geselecteerde tekst in een PDF-document met behulp van Java.
// Bewerk tekst in PDF en tekst in afbeelding zoals een gescand document met behulp van Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
Redaction redactions[] = new Redaction[] {
new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
new RegexRedaction("\\d{4}", marker) // card number parts
};
RedactorChangeLog result = redactor.apply(redactions);
if (result.getStatus() != RedactionStatus.Failed)
{
redactor.save(new SaveOptions(false, "redacted"));
}
}
De uitvoer van de bovenstaande code is als volgt met de zwarte geselecteerde tekst van het PDF-document.
Ontvang een gratis API-licentie
U kunt een gratis tijdelijke licentie krijgen om de API te gebruiken zonder de evaluatiebeperkingen.
Conclusie
Tot slot heb je geleerd hoe je tekst in documenten redigeert. Daarnaast hebben we besproken hoe tekst in de afbeeldingen in een PDF-document kan worden geredigeerd met behulp van Java. Op dezelfde manier kunt u tekst en afbeeldingen redigeren met documenten van elk ander formaat. We hebben de redactie van reguliere expressies gebruikt, maar het kan ook op veel verschillende manieren worden gedaan. Later hebben we de zoekresultaten verborgen met behulp van een zwarte doos.
Ga voor meer informatie over de API naar de documentatie. Neem voor vragen contact met ons op via het forum.