Chcete zabezpečit tajné nebo citlivé informace, které jsou v dokumentech? Je to proveditelné, i když se jedná o běžné textové informace nebo o text s naskenovaným dokumentem s obrázky. Předchozí články vám mohou pomoci upřesnit vyhledávání, kde jsme diskutovali o různých strategiích vyhledávání slov a hledání synonym ve více dokumentech. Tento článek vás provede redigováním textu PDF a textu v obrázcích v dokumentu pomocí Java.

Níže budou probrána následující témata:

Java API pro úpravu textu a obrázků

GroupDocs.Redaction poskytuje řešení redakce pro zabezpečení utajovaných informací. Jeho Java API vám umožňuje redigovat nebo odstraňovat důvěrné informace v dokumentech různých formátů souborů z vašich aplikací založených na Java. Spolu s jednoduchou textovou redigací a rasterizací umožňuje API také identifikovat text v obrázcích, které mohly být uvnitř jakéhokoli dokumentu, jako jsou nejčastěji používané naskenované soubory PDF. Úplný seznam podporovaných formátů souborů je k dispozici v dokumentaci.

Stáhnout nebo Konfigurovat

Soubor JAR si můžete stáhnout z části ke stažení nebo si můžete stáhnout nejnovější úložiště a konfigurace závislostí pro pom.xml vašich Java aplikací založených na maven.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

Úprava textu PDF a textu naskenovaného obrázku pomocí Java

Již jsme diskutovali o různých způsobech vyhledání a nahrazení textu v dokumentech. Můžeme však také upravovat text v obrázcích. Použiji následující PDF dokument, který obsahuje nějaký text a také obrázek s nějakým textem. K tomu potřebujeme zkombinovat OCR s procesem redakce. Nejprve identifikujeme text v dokumentu a také text, který je uvnitř obrázku dokumentu. Poté jej zakryjeme černou skříňkou, abychom programově skryli veškeré právní, důvěrné nebo tajné informace, i když jsou jako text v naskenovaném obrázku dokumentu.

PDF s textem a naskenovaným obrázkem

Následující kroky detekují a nahradí text v dokumentech PDF, který obsahuje běžný text nebo jakýkoli text ve vložených obrázcích.

  • Připravte nastavení editoru pomocí libovolného konektoru OCR.
  • Načtěte soubor PDF pomocí třídy Redactor a také pokud jsou vyžadovány nějaké specifické možnosti načítání.
  • Definujte své možnosti náhrady. Rozhodl jsem se začernit text.
  • Připravte redakce; použijte vhodnou strategii redakce, jako je Phrase Redaction nebo RegEx redaction.
  • Aplikujte redakce pomocí metody použít.
  • Uložte redigovaný dokument pomocí metody save.

Následující zdrojový kód rediguje vybraný text v dokumentu PDF pomocí jazyka Java.

// Upravte text v PDF a text v obrázku jako naskenovaný dokument pomocí Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

Výstup výše uvedeného kódu je následující se začerněným vybraným textem dokumentu PDF.

Upravte text PDF a text naskenovaného obrázku

Získejte bezplatnou licenci API

Můžete získat bezplatnou dočasnou licenci k používání API bez omezení hodnocení.

Závěr

Na závěr jste se naučili, jak redigovat text v dokumentech. Kromě toho jsme diskutovali o tom, jak redigovat text v obrázcích v dokumentu PDF pomocí Java. Podobně můžete text a obrázky redigovat pomocí dokumentů jakéhokoli jiného formátu. Použili jsme redigování regulárních výrazů, lze to však provést také mnoha různými způsoby. Později jsme výsledky vyhledávání skryli pomocí černé skříňky.

Další podrobnosti o rozhraní API naleznete v dokumentaci. V případě dotazů nás kontaktujte prostřednictvím fóra.

Viz také