Vuoi proteggere le informazioni segrete o sensibili contenute nei documenti? È fattibile anche se si tratta di normali informazioni testuali o di testo con il documento scansionato con immagini. Gli articoli precedenti possono aiutarti a perfezionare la tua ricerca, in cui abbiamo discusso le diverse strategie per cercare le parole e cercare i sinonimi all’interno di più documenti. Questo articolo ti guida su come redigere testo PDF e testo nelle immagini all’interno di un documento utilizzando Java.

Di seguito verranno trattati i seguenti argomenti:

API Java per la redazione di testi e immagini

GroupDocs.Redaction fornisce la soluzione di redazione per proteggere le informazioni classificate. La sua API Java ti consente di oscurare o rimuovere informazioni riservate all’interno di documenti di vari formati di file dalle tue applicazioni basate su Java. Insieme alla semplice redazione e rasterizzazione del testo, l’API consente anche di identificare il testo nelle immagini che potrebbero essere state all’interno di qualsiasi documento, come i file PDF scansionati più comunemente utilizzati. L’elenco completo dei formati di file supportati è disponibile nella documentazione.

Scarica o configura

Puoi scaricare il file JAR dalla sezione download, o semplicemente ottenere l’ultimo repository e le configurazioni delle dipendenze per il pox.xml delle tue applicazioni Java basate su Maven.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

Redigere testo PDF e testo immagine scansionato utilizzando Java

Abbiamo già discusso i diversi modi per trovare e sostituire il testo nei documenti. Tuttavia, possiamo anche redigere il testo all’interno delle immagini. Userò il seguente documento PDF, che contiene del testo e anche un’immagine con del testo. Per questo, dobbiamo combinare l’OCR con il processo di redazione. In primo luogo, identificheremo il testo nel documento e anche il testo che si trova all’interno dell’immagine del documento. Quindi, lo copriremo con una scatola nera per nascondere a livello di codice qualsiasi informazione legale, riservata o segreta anche se è come testo all’interno dell’immagine di un documento scansionato.

PDF con testo e immagine scansionata

I seguenti passaggi rileveranno e sostituiranno il testo nei documenti PDF, che contiene testo normale o qualsiasi testo all’interno delle immagini incorporate.

  • Preparare le impostazioni del redattore utilizzando qualsiasi connettore OCR.
  • Carica il tuo file PDF utilizzando la classe Redactor e anche se sono richieste opzioni di caricamento specifiche.
  • Definisci le tue opzioni di sostituzione. Sto optando per oscurare il testo.
  • Preparare le redazioni; utilizzare la strategia di redazione appropriata come Redazione frase o Redazione RegEx.
  • Applicare le redazioni utilizzando il metodo applica.
  • Salva il documento redatto utilizzando il metodo save.

Il seguente codice sorgente redige il testo selezionato all’interno di un documento PDF utilizzando Java.

// Redigere testo in PDF e testo in immagine come un documento scansionato utilizzando Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

L’output del codice sopra è il seguente con il testo selezionato oscurato del documento PDF.

Redigere il testo PDF e il testo dell'immagine scansionata

Ottieni una licenza API gratuita

Puoi ottenere una licenza temporanea gratuita per utilizzare l’API senza i limiti di valutazione.

Conclusione

Per concludere, hai imparato a redigere il testo nei documenti. Inoltre, abbiamo discusso di come redigere il testo nelle immagini all’interno di un documento PDF utilizzando Java. Allo stesso modo, puoi modificare testo e immagini con documenti di qualsiasi altro formato. Abbiamo usato la redazione delle espressioni regolari, tuttavia, può anche essere eseguita in molti modi diversi. Successivamente abbiamo nascosto i risultati della ricerca utilizzando una casella nera.

Per maggiori dettagli sull’API, visita la documentazione. Per domande, contattaci tramite il forum.

Guarda anche