想要保護文檔中的秘密或敏感信息?即使這是常規的文本信息,或者它是帶有圖像的掃描文檔的文本,也是可行的。之前的文章可能會幫助您優化搜索,我們在其中討論了搜索單詞的不同策略在多個文檔中搜索同義詞。本文將指導您如何使用 Java 編輯文檔中的 PDF 文本和圖像中的文本。

下面將涵蓋以下主題:

用於文本和圖像編輯的 Java API

GroupDocs.Redaction 提供保護機密信息的編輯解決方案。它的 Java API 允許您從基於 Java 的應用程序中編輯或刪除各種文件格式的文檔中的機密信息。除了簡單的文本編輯和光柵化,API 還允許識別圖像中的文本,這些圖像可能存在於任何文檔(如最常用的掃描 PDF 文件)中。 支持的文件格式 的完整列表可在文檔中找到。

下載或配置

您可以從 下載部分 下載 JAR 文件,或者只獲取基於 maven 的 Java 應用程序的 pom.xml 的最新存儲庫和依賴項配置。

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

使用 Java 編輯 PDF 文本和掃描圖像文本

我們已經討論了不同的在文檔中查找和替換文本的方法。但是,我們也可以編輯圖像中的文本。我將使用以下 PDF 文檔,其中包含一些文本以及帶有一些文本的圖像。為此,我們需要將 OCR 與編輯過程結合起來。首先,我們將識別文檔中的文本以及文檔圖像中的文本。然後,我們將用黑框覆蓋它,以編程方式隱藏任何合法、機密或秘密信息,即使是掃描文檔圖像中的文本。

帶有文本和掃描圖像的 PDF

以下步驟將檢測並替換 PDF 文檔中包含常規文本或嵌入圖像中的任何文本的文本。

  • 使用任何 OCR 連接器準備編輯器設置。
  • 使用 Redactor 類加載您的 PDF 文件,如果需要任何特定的加載選項。
  • 定義您的替換選項。我選擇塗黑文本。
  • 準備編輯;使用適當的編輯策略,如 Phrase RedactionRegEx redaction
  • 使用 apply 方法應用密文。
  • 使用 save 方法保存編輯後的文檔。

以下源代碼使用 Java 編輯 PDF 文檔中的選定文本。

// 使用 Java 編輯 PDF 中的文本和圖像中的文本,例如掃描文檔
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

上述代碼的輸出如下,PDF 文檔的選定文本被塗黑。

編輯 PDF 文本和掃描圖像文本

獲取免費的 API 許可證

您可以 獲得免費的臨時許可證 以不受評估限制地使用 API。

結論

總而言之,您已經學習瞭如何編輯文檔中的文本。此外,我們還討論瞭如何使用 Java 編輯 PDF 文檔中圖像中的文本。同樣,您可以使用任何其他格式的文檔編輯文本和圖像。我們使用了正則表達式編輯,但是,它也可以使用許多不同的方式來完成。後來我們使用黑匣子隱藏了搜索結果。

有關 API 的更多詳細信息,請訪問 文檔。如有疑問,請通過論壇 聯繫我們。

也可以看看