Chcete zabezpečit tajné nebo citlivé informace, které jsou v dokumentech? Je to proveditelné, i když se jedná o běžné textové informace nebo o text s naskenovaným dokumentem s obrázky. Předchozí články vám mohou pomoci upřesnit vyhledávání, kde jsme diskutovali o různých strategiích vyhledávání slov a hledání synonym ve více dokumentech. Tento článek vás provede redigováním textu PDF a textu v obrázcích v dokumentu pomocí Java.
Níže budou probrána následující témata:
Java API pro úpravu textu a obrázků
GroupDocs.Redaction poskytuje řešení redakce pro zabezpečení utajovaných informací. Jeho Java API vám umožňuje redigovat nebo odstraňovat důvěrné informace v dokumentech různých formátů souborů z vašich aplikací založených na Java. Spolu s jednoduchou textovou redigací a rasterizací umožňuje API také identifikovat text v obrázcích, které mohly být uvnitř jakéhokoli dokumentu, jako jsou nejčastěji používané naskenované soubory PDF. Úplný seznam podporovaných formátů souborů je k dispozici v dokumentaci.
Stáhnout nebo Konfigurovat
Soubor JAR si můžete stáhnout z části ke stažení nebo si můžete stáhnout nejnovější úložiště a konfigurace závislostí pro pom.xml vašich Java aplikací založených na maven.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-redaction</artifactId>
<version>21.6</version>
</dependency>
Úprava textu PDF a textu naskenovaného obrázku pomocí Java
Již jsme diskutovali o různých způsobech vyhledání a nahrazení textu v dokumentech. Můžeme však také upravovat text v obrázcích. Použiji následující PDF dokument, který obsahuje nějaký text a také obrázek s nějakým textem. K tomu potřebujeme zkombinovat OCR s procesem redakce. Nejprve identifikujeme text v dokumentu a také text, který je uvnitř obrázku dokumentu. Poté jej zakryjeme černou skříňkou, abychom programově skryli veškeré právní, důvěrné nebo tajné informace, i když jsou jako text v naskenovaném obrázku dokumentu.
Následující kroky detekují a nahradí text v dokumentech PDF, který obsahuje běžný text nebo jakýkoli text ve vložených obrázcích.
- Připravte nastavení editoru pomocí libovolného konektoru OCR.
- Načtěte soubor PDF pomocí třídy Redactor a také pokud jsou vyžadovány nějaké specifické možnosti načítání.
- Definujte své možnosti náhrady. Rozhodl jsem se začernit text.
- Připravte redakce; použijte vhodnou strategii redakce, jako je Phrase Redaction nebo RegEx redaction.
- Aplikujte redakce pomocí metody použít.
- Uložte redigovaný dokument pomocí metody save.
Následující zdrojový kód rediguje vybraný text v dokumentu PDF pomocí jazyka Java.
// Upravte text v PDF a text v obrázku jako naskenovaný dokument pomocí Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
Redaction redactions[] = new Redaction[] {
new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
new RegexRedaction("\\d{4}", marker) // card number parts
};
RedactorChangeLog result = redactor.apply(redactions);
if (result.getStatus() != RedactionStatus.Failed)
{
redactor.save(new SaveOptions(false, "redacted"));
}
}
Výstup výše uvedeného kódu je následující se začerněným vybraným textem dokumentu PDF.
Získejte bezplatnou licenci API
Můžete získat bezplatnou dočasnou licenci k používání API bez omezení hodnocení.
Závěr
Na závěr jste se naučili, jak redigovat text v dokumentech. Kromě toho jsme diskutovali o tom, jak redigovat text v obrázcích v dokumentu PDF pomocí Java. Podobně můžete text a obrázky redigovat pomocí dokumentů jakéhokoli jiného formátu. Použili jsme redigování regulárních výrazů, lze to však provést také mnoha různými způsoby. Později jsme výsledky vyhledávání skryli pomocí černé skříňky.
Další podrobnosti o rozhraní API naleznete v dokumentaci. V případě dotazů nás kontaktujte prostřednictvím fóra.