想要保護文檔中的秘密或敏感信息?即使這是常規的文本信息,或者它是帶有圖像的掃描文檔的文本,也是可行的。之前的文章可能會幫助您優化搜索,我們在其中討論了搜索單詞的不同策略 和在多個文檔中搜索同義詞。本文將指導您如何使用 Java 編輯文檔中的 PDF 文本和圖像中的文本。
下面將涵蓋以下主題:
用於文本和圖像編輯的 Java API
GroupDocs.Redaction 提供保護機密信息的編輯解決方案。它的 Java API 允許您從基於 Java 的應用程序中編輯或刪除各種文件格式的文檔中的機密信息。除了簡單的文本編輯和光柵化,API 還允許識別圖像中的文本,這些圖像可能存在於任何文檔(如最常用的掃描 PDF 文件)中。 支持的文件格式 的完整列表可在文檔中找到。
下載或配置
您可以從 下載部分 下載 JAR 文件,或者只獲取基於 maven 的 Java 應用程序的 pom.xml 的最新存儲庫和依賴項配置。
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-redaction</artifactId>
<version>21.6</version>
</dependency>
使用 Java 編輯 PDF 文本和掃描圖像文本
我們已經討論了不同的在文檔中查找和替換文本的方法。但是,我們也可以編輯圖像中的文本。我將使用以下 PDF 文檔,其中包含一些文本以及帶有一些文本的圖像。為此,我們需要將 OCR 與編輯過程結合起來。首先,我們將識別文檔中的文本以及文檔圖像中的文本。然後,我們將用黑框覆蓋它,以編程方式隱藏任何合法、機密或秘密信息,即使是掃描文檔圖像中的文本。
以下步驟將檢測並替換 PDF 文檔中包含常規文本或嵌入圖像中的任何文本的文本。
- 使用任何 OCR 連接器準備編輯器設置。
- 使用 Redactor 類加載您的 PDF 文件,如果需要任何特定的加載選項。
- 定義您的替換選項。我選擇塗黑文本。
- 準備編輯;使用適當的編輯策略,如 Phrase Redaction 或 RegEx redaction。
- 使用 apply 方法應用密文。
- 使用 save 方法保存編輯後的文檔。
以下源代碼使用 Java 編輯 PDF 文檔中的選定文本。
// 使用 Java 編輯 PDF 中的文本和圖像中的文本,例如掃描文檔
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
Redaction redactions[] = new Redaction[] {
new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
new RegexRedaction("\\d{4}", marker) // card number parts
};
RedactorChangeLog result = redactor.apply(redactions);
if (result.getStatus() != RedactionStatus.Failed)
{
redactor.save(new SaveOptions(false, "redacted"));
}
}
上述代碼的輸出如下,PDF 文檔的選定文本被塗黑。
獲取免費的 API 許可證
您可以 獲得免費的臨時許可證 以不受評估限制地使用 API。
結論
總而言之,您已經學習瞭如何編輯文檔中的文本。此外,我們還討論瞭如何使用 Java 編輯 PDF 文檔中圖像中的文本。同樣,您可以使用任何其他格式的文檔編輯文本和圖像。我們使用了正則表達式編輯,但是,它也可以使用許多不同的方式來完成。後來我們使用黑匣子隱藏了搜索結果。
有關 API 的更多詳細信息,請訪問 文檔。如有疑問,請通過論壇 聯繫我們。