Vaak moeten we de vertrouwelijke en gevoelige informatie in de documenten verbergen. In andere artikelen hebben we de verschillende strategieën om woorden te zoeken en zelfs zoek naar synoniemen in meerdere documenten besproken. Dit artikel helpt u bij het redigeren van PDF-tekst en tekst in afbeeldingen in een document met behulp van C#.

De volgende onderwerpen komen hieronder aan bod:

.NET API voor redactie van tekst en afbeeldingen

GroupDocs.Redaction biedt de document redactie .NET API waarmee vertrouwelijke informatie in documenten van verschillende bestandsindelingen kan worden verborgen en verwijderd. Naast de eenvoudige tekstredactie en rastering, maakt de API het ook mogelijk om de tekst in afbeeldingen te identificeren die zich in elk document kunnen bevinden, zoals de meest gebruikte gescande PDF-bestanden. De volledige lijst met ondersteunde bestandsindelingen is beschikbaar in de documentatie.

U kunt de DLL’s of het MSI-installatieprogramma downloaden van de downloadsectie of de API in uw .NET-toepassing installeren via NuGet.

Installeren via Package Manager-console

PM> Install-Package GroupDocs.Redaction

Installeer via NuGet Package Manager

GroupDocs.Redaction - NuGet-pakket - Installeren

PDF-tekst en gescande afbeeldingstekst redigeren met C#

Er zijn veel verschillende manieren om tekst in documenten te zoeken en te vervangen die al zijn besproken. U kunt specifieke woorden in elk document vinden, zoeken met hoofdlettergevoeligheid of door reguliere expressies te gebruiken. Ik zal het volgende PDF-document gebruiken, dat wat tekst bevat en ook een afbeelding met wat tekst erin. Hier combineren we het OCR- en redactieproces met behulp van GroupDocs.Redaction for .NET. Ten eerste zullen we de tekst in het document identificeren en ook de tekst die zich in de afbeelding van het document bevindt. Ten tweede zullen we het bedekken met een zwarte doos om te demonstreren hoe we legale of vertrouwelijke informatie programmatisch kunnen verbergen, zelfs als het als tekst is in een gescande documentafbeelding.

PDF met tekst en gescande afbeelding

De volgende stappen zullen de tekst in een PDF-document detecteren en vervangen, dat gewone tekst bevat samen met wat tekst in een ingesloten afbeelding.

  • Bereid de editor-instellingen voor met behulp van een OCR-connector.
  • Laad het PDF-document met de klasse Redactor met de voorbereide instellingen en eventuele specifieke laadopties.
  • Definieer de vervangingsoptie. Ik heb gedefinieerd om de tekst zwart te maken.
  • Gebruik voor de tekstredactie de juiste tekstselectiestrategie. Ik heb RegEx gebruikt.
  • Pas de redacties toe met de methode Toepassen.
  • Sla het geredigeerde document op met de methode Opslaan.

De volgende broncode redigeert de geselecteerde tekst in een PDF-document met behulp van C#.

// Bewerk tekst in PDF en tekst in afbeelding zoals een gescand document met C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

De uitvoer van de bovenstaande code is als volgt die de geselecteerde tekst van het PDF-document zwart maakt.

Bewerk PDF-tekst en gescande afbeeldingstekst

Ontvang een gratis API-licentie

U kunt een gratis tijdelijke licentie krijgen om de API te gebruiken zonder de evaluatiebeperkingen.

Conclusie

Kortom, je hebt geleerd om tekst in documenten te redigeren. Wat nog belangrijker en preciezer is, we bespraken hoe tekst in afbeeldingen in een PDF-document kan worden geredigeerd met behulp van C#. We hebben de tekst geselecteerd om te redigeren met behulp van reguliere expressies, maar deze kan op veel verschillende manieren worden geselecteerd, zoals eerder besproken. Later maken we de zoekresultaten zwart met een zwarte rechthoek over de gezochte tekst.

Ga voor meer informatie over de API naar de documentatie. Neem voor vragen contact met ons op via het forum.

Zie ook