ドキュメント内の秘密または機密情報を保護したいですか?これが通常のテキスト情報であっても、スキャンされたドキュメントと画像を含むテキストであっても実行可能です。以前の記事は、単語を検索するためのさまざまな戦略と複数のドキュメント内の同義語を検索するについて説明した検索を絞り込むのに役立つ場合があります。この記事では、Javaを使用してドキュメント内の画像内のPDFテキストとテキストを編集する方法について説明します。
以下のトピックについて以下で説明します。
テキストと画像の編集のためのJavaAPI
GroupDocs.Redactionは、機密情報を保護するための編集ソリューションを提供します。そのJavaAPIを使用すると、Javaベースのアプリケーションからさまざまなファイル形式のドキュメント内の機密情報を編集または削除できます。 APIは、単純なテキストの編集とラスタライズに加えて、最も一般的に使用されるスキャンされたPDFファイルのようなドキュメント内にあった可能性のある画像内のテキストを識別することもできます。 サポートされているファイル形式の完全なリストは、ドキュメントに記載されています。
ダウンロードまたは構成
ダウンロードセクションからJARファイルをダウンロードするか、mavenベースのJavaアプリケーションのpom.xmlの最新のリポジトリと依存関係の構成を取得することができます。
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-redaction</artifactId>
<version>21.6</version>
</dependency>
Javaを使用してPDFテキストとスキャンされた画像テキストを編集する
さまざまなドキュメント内のテキストを検索して置換する方法についてはすでに説明しました。ただし、画像内のテキストを編集することもできます。次のPDFドキュメントを使用します。このドキュメントには、テキストとテキストを含む画像が含まれています。このために、OCRを編集プロセスと組み合わせる必要があります。まず、ドキュメント内のテキストと、ドキュメントの画像内にあるテキストを識別します。次に、スキャンしたドキュメント画像内のテキストであっても、法的情報、機密情報、または秘密情報をプログラムで非表示にするために、ブラックボックスで覆います。
次の手順では、PDFドキュメント内のテキストを検出して置き換えます。このテキストには、通常のテキストまたは埋め込み画像内のテキストが含まれています。
- 任意のOCRコネクタを使用してRedactor設定を準備します。
- Redactorクラスを使用して、また特定のロードオプションが必要な場合は、PDFファイルをロードします。
- 交換オプションを定義します。テキストを黒く塗りつぶすことを選択しています。
- 編集を準備します。 PhraseRedactionやRegExredactionなどの適切な編集戦略を使用してください。
- applyメソッドを使用して編集を適用します。
- saveメソッドを使用して編集済みドキュメントを保存します。
次のソースコードは、Javaを使用してPDFドキュメント内の選択されたテキストを編集します。
// Javaを使用してスキャンしたドキュメントのようにPDFのテキストと画像のテキストを編集する
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
Redaction redactions[] = new Redaction[] {
new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
new RegexRedaction("\\d{4}", marker) // card number parts
};
RedactorChangeLog result = redactor.apply(redactions);
if (result.getStatus() != RedactionStatus.Failed)
{
redactor.save(new SaveOptions(false, "redacted"));
}
}
上記のコードの出力は、PDFドキュメントの選択されたテキストを黒く塗りつぶした状態で次のようになります。
無料のAPIライセンスを取得する
無料の一時ライセンスを取得して、評価の制限なしにAPIを使用できます。
結論
結論として、あなたは文書のテキストを編集する方法を学びました。さらに、Javaを使用してPDFドキュメント内の画像のテキストを編集する方法についても説明しました。同様に、テキストや画像を他の形式のドキュメントで編集できます。正規表現の編集を使用しましたが、さまざまな方法で実行することもできます。その後、ブラックボックスを使用して検索結果を非表示にしました。
APIの詳細については、ドキュメントにアクセスしてください。お問い合わせは、フォーラムまでお問い合わせください。