Spesso abbiamo bisogno di nascondere le informazioni riservate e sensibili all’interno dei documenti. In altri articoli, abbiamo discusso le diverse strategie per cercare le parole e persino cercare i sinonimi all’interno di più documenti. Questo articolo ti guida su come redigere testo PDF e testo nelle immagini all’interno di un documento usando C#.

Di seguito verranno trattati i seguenti argomenti:

API .NET per la redazione di testi e immagini

GroupDocs.Redaction fornisce la redazione del documento .NET API che consente di nascondere e rimuovere informazioni riservate all’interno di documenti di vari formati di file. Insieme alla semplice redazione e rasterizzazione del testo, l’API consente anche di identificare il testo nelle immagini che potrebbero essere state all’interno di qualsiasi documento, come i file PDF scansionati più comunemente utilizzati. L’elenco completo dei formati di file supportati è disponibile nella documentazione.

Puoi scaricare le DLL o il programma di installazione MSI dalla sezione download o installare l’API nella tua applicazione .NET tramite NuGet.

Installa tramite Package Manager Console

PM> Install-Package GroupDocs.Redaction

Installa tramite Gestione pacchetti NuGet

GroupDocs.Redaction - Pacchetto NuGet - Installa

Redigere testo PDF e testo immagine scansionato utilizzando C#

Esistono molti modi diversi per trovare e sostituire il testo nei documenti che sono già stati discussi. Puoi trovare parole specifiche in qualsiasi documento, trovare con distinzione tra maiuscole e minuscole o utilizzando espressioni regolari. Userò il seguente documento PDF, che contiene del testo e anche un’immagine con del testo. Qui combineremo l’OCR e il processo di redazione utilizzando GroupDocs.Redaction per .NET. In primo luogo, identificheremo il testo nel documento e anche il testo che si trova all’interno dell’immagine del documento. In secondo luogo, lo copriremo con una scatola nera per dimostrare come nascondere a livello di codice qualsiasi informazione legale o riservata, anche se è come testo all’interno di un’immagine di documento scansionata.

PDF con testo e immagine scansionata

I seguenti passaggi rileveranno e sostituiranno il testo in un documento PDF, che contiene testo normale insieme a del testo all’interno di un’immagine incorporata.

  • Preparare le impostazioni del redattore utilizzando qualsiasi connettore OCR.
  • Carica il documento PDF utilizzando la classe Redactor con le impostazioni preparate ed eventuali opzioni di caricamento specifiche.
  • Definisci l’opzione di sostituzione. Ho deciso di oscurare il testo.
  • Per la redazione del testo, utilizzare la strategia di selezione del testo appropriata. Ho usato RegEx.
  • Applicare le redazioni utilizzando il metodo Applica.
  • Salva il documento redatto utilizzando il metodo Salva.

Il codice sorgente seguente redige il testo selezionato all’interno di un documento PDF utilizzando C#.

// Redigere testo in PDF e testo in immagine come un documento scansionato utilizzando C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

L’output del codice sopra è il seguente che oscura il testo selezionato del documento PDF.

Redigere il testo PDF e il testo dell'immagine scansionata

Ottieni una licenza API gratuita

Puoi ottenere una licenza temporanea gratuita per utilizzare l’API senza i limiti di valutazione.

Conclusione

Per riassumere, hai imparato a redigere il testo nei documenti. Ancora più importante e preciso, abbiamo discusso come redigere il testo nelle immagini all’interno di un documento PDF usando C#. Abbiamo selezionato il testo da redigere usando espressioni regolari, tuttavia, può essere selezionato in molti modi diversi, come discusso in precedenza. Successivamente oscuriamo i risultati della ricerca utilizzando una casella rettangolare nera sul testo cercato.

Per maggiori dettagli sull’API, visita la documentazione. Per domande, contattaci tramite il forum.

Guarda anche