Wir müssen oft die vertraulichen und sensiblen Informationen in den Dokumenten verbergen. In anderen Artikeln haben wir die verschiedenen Strategien zum Suchen von Wörtern und sogar die Suche nach Synonymen in mehreren Dokumenten besprochen. In diesem Artikel erfahren Sie, wie Sie PDF-Text und Text in Bildern in einem Dokument mit C# redigieren.

Nachfolgend werden folgende Themen behandelt:

.NET-API für Text- und Bildredaktion

GroupDocs.Redaction stellt die Document Redaction .NET API bereit, die das Ausblenden und Entfernen vertraulicher Informationen in Dokumenten verschiedener Dateiformate ermöglicht. Neben der einfachen Textschwärzung und Rasterung ermöglicht die API auch die Identifizierung des Textes in Bildern, die sich möglicherweise in einem Dokument befanden, wie z. B. die am häufigsten verwendeten gescannten PDF-Dateien. Die vollständige Liste der unterstützten Dateiformate finden Sie in der Dokumentation.

Sie können das DLLs- oder MSI-Installationsprogramm aus dem Downloadbereich herunterladen oder die API in Ihrer .NET-Anwendung über NuGet installieren.

Installation über die Paket-Manager-Konsole

PM> Install-Package GroupDocs.Redaction

Installation über NuGet Package Manager

GroupDocs.Redaction – NuGet-Paket – Installieren

PDF-Text und gescannten Bildtext mit C# schwärzen

Es gibt viele verschiedene Möglichkeiten, Text in Dokumenten zu finden und zu ersetzen, die bereits besprochen wurden. Sie können in jedem Dokument nach bestimmten Wörtern suchen, mit Berücksichtigung der Groß-/Kleinschreibung oder mithilfe regulärer Ausdrücke. Ich werde das folgende PDF-Dokument verwenden, das Text und auch ein Bild mit Text enthält. Hier kombinieren wir den OCR- und Redaktionsprozess mit GroupDocs.Redaction für .NET. Zuerst identifizieren wir den Text im Dokument und auch den Text, der sich im Bild des Dokuments befindet. Zweitens werden wir es mit einer schwarzen Box abdecken, um zu demonstrieren, wie rechtliche oder vertrauliche Informationen programmatisch ausgeblendet werden können, selbst wenn sie als Text in einem gescannten Dokumentbild enthalten sind.

PDF mit Text und gescanntem Bild

Die folgenden Schritte erkennen und ersetzen den Text in einem PDF-Dokument, das normalen Text zusammen mit etwas Text in einem eingebetteten Bild enthält.

  • Bereiten Sie die Redactor-Einstellungen mit einem beliebigen OCR-Connector vor.
  • Laden Sie das PDF-Dokument mit der Klasse Redactor mit den vorbereiteten Einstellungen und allen spezifischen Ladeoptionen.
  • Definieren Sie die Ersetzungsoption. Ich habe definiert, den Text zu schwärzen.
  • Verwenden Sie für die Textschwärzung die entsprechende Textauswahlstrategie. Ich habe RegEx verwendet.
  • Wenden Sie die Schwärzungen mit der Methode Anwenden an.
  • Speichern Sie das redigierte Dokument mit der Methode Save.

Der folgende Quellcode redigiert den ausgewählten Text in einem PDF-Dokument mit C#.

// Redigieren Sie Text in PDF und Text in Bild wie gescanntes Dokument mit C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

Die Ausgabe des obigen Codes sieht so aus, dass der ausgewählte Text des PDF-Dokuments geschwärzt wird.

Schwärzen Sie PDF-Text und gescannten Bildtext

Holen Sie sich eine kostenlose API-Lizenz

Sie können eine kostenlose temporäre Lizenz erhalten, um die API ohne die Evaluierungseinschränkungen zu verwenden.

Fazit

Zusammenfassend haben Sie gelernt, Text in Dokumenten zu schwärzen. Noch wichtiger und präziser ist, dass wir besprochen haben, wie Text in Bildern innerhalb eines PDF-Dokuments mit C# geschwärzt werden kann. Wir haben den zu redigierenden Text mit regulären Ausdrücken ausgewählt, er kann jedoch, wie bereits erwähnt, auf viele verschiedene Arten ausgewählt werden. Später schwärzen wir die Suchergebnisse mit einem schwarzen Rechteck über dem gesuchten Text.

Weitere Informationen zur API finden Sie in der Dokumentation. Bei Fragen kontaktieren Sie uns über das Forum.

Siehe auch