Möchten Sie die geheimen oder sensiblen Informationen in den Dokumenten sichern? Dies ist auch möglich, wenn es sich um normale Textinformationen oder um Text mit dem gescannten Dokument mit Bildern handelt. Die früheren Artikel können Ihnen dabei helfen, Ihre Suche zu verfeinern, in denen wir die verschiedenen Strategien zum Suchen von Wörtern und die Suche nach Synonymen in mehreren Dokumenten besprochen haben. In diesem Artikel erfahren Sie, wie Sie PDF-Text und Text in Bildern in einem Dokument mit Java redigieren.

Nachfolgend werden folgende Themen behandelt:

Java-API für Text- und Bildredaktion

GroupDocs.Redaction bietet die Schwärzungslösung zum Sichern der Verschlusssachen. Seine Java-API ermöglicht es Ihnen, vertrauliche Informationen in Dokumenten verschiedener Dateiformate aus Ihren Java-basierten Anwendungen zu redigieren oder zu entfernen. Neben der einfachen Textschwärzung und Rasterung ermöglicht die API auch die Identifizierung des Textes in Bildern, die sich möglicherweise in einem Dokument befanden, wie z. B. die am häufigsten verwendeten gescannten PDF-Dateien. Die vollständige Liste der unterstützten Dateiformate finden Sie in der Dokumentation.

Herunterladen oder Konfigurieren

Sie können die JAR-Datei aus dem Download-Bereich herunterladen oder einfach die neuesten Repository- und Abhängigkeitskonfigurationen für die pom.xml Ihrer maven-basierten Java-Anwendungen abrufen.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

Schwärzen Sie PDF-Text und gescannten Bildtext mit Java

Wir haben bereits die verschiedenen [Möglichkeiten zum Suchen und Ersetzen von Text in Dokumenten] besprochen10. Wir können jedoch auch Text in Bildern schwärzen. Ich werde das folgende PDF-Dokument verwenden, das etwas Text und auch ein Bild mit etwas Text enthält. Dazu müssen wir OCR mit dem Redaktionsprozess kombinieren. Zuerst identifizieren wir den Text im Dokument und auch den Text, der sich im Bild des Dokuments befindet. Dann werden wir es mit einer Blackbox abdecken, um alle rechtlichen, vertraulichen oder geheimen Informationen programmgesteuert zu verbergen, selbst wenn sie als Text in einem gescannten Dokumentbild enthalten sind.

PDF mit Text und gescanntem Bild

Die folgenden Schritte erkennen und ersetzen den Text in den PDF-Dokumenten, der normalen Text oder beliebigen Text in den eingebetteten Bildern enthält.

  • Bereiten Sie die Redactor-Einstellungen mit einem beliebigen OCR-Connector vor.
  • Laden Sie Ihre PDF-Datei mit der Klasse Redactor und auch, wenn bestimmte Ladeoptionen erforderlich sind.
  • Definieren Sie Ihre Ersatzoptionen. Ich entscheide mich dafür, den Text zu schwärzen.
  • Bereiten Sie die Redaktionen vor; Verwenden Sie die entsprechende Schwärzungsstrategie wie Phrase Redaction oder RegEx redaction.
  • Wenden Sie die Schwärzungen mit der Methode apply an.
  • Speichern Sie das redigierte Dokument mit der Methode save.

Der folgende Quellcode redigiert den ausgewählten Text innerhalb eines PDF-Dokuments mit Java.

// Schwärzen Sie Text in PDF und Text in Bildern wie gescannte Dokumente mit Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

Die Ausgabe des obigen Codes ist wie folgt mit dem geschwärzten ausgewählten Text des PDF-Dokuments.

Schwärzen Sie PDF-Text und gescannten Bildtext

Holen Sie sich eine kostenlose API-Lizenz

Sie können eine kostenlose temporäre Lizenz erhalten, um die API ohne die Evaluierungseinschränkungen zu verwenden.

Fazit

Abschließend haben Sie gelernt, wie Sie Text in Dokumenten schwärzen. Außerdem haben wir besprochen, wie Text in den Bildern in einem PDF-Dokument mit Java geschwärzt werden kann. Ebenso können Sie Text und Bilder mit Dokumenten in jedem anderen Format schwärzen. Wir haben das Schwärzen regulärer Ausdrücke verwendet, es kann jedoch auch auf viele verschiedene Arten erfolgen. Später versteckten wir die Suchergebnisse mit einer Blackbox.

Weitere Informationen zur API finden Sie in der Dokumentation. Bei Fragen kontaktieren Sie uns über das Forum.

Siehe auch