多くの場合、ドキュメント内の機密情報を非表示にする必要があります。他の記事では、単語を検索するためのさまざまな戦略、さらには複数のドキュメント内の同義語を検索するについても説明しました。この記事では、** C#を使用してドキュメント内の画像内のPDFテキストとテキストを編集する方法**について説明します。
以下のトピックについて説明します。
テキストと画像の編集のための.NETAPI
GroupDocs.Redactionは、さまざまなファイル形式のドキュメント内の機密情報を非表示にしたり削除したりできるdocument redaction .NETAPIを提供します。 APIは、単純なテキストの編集とラスタライズに加えて、最も一般的に使用されるスキャンされたPDFファイルのようなドキュメント内にあった可能性のある画像内のテキストを識別することもできます。 サポートされているファイル形式の完全なリストは、ドキュメントに記載されています。
ダウンロードセクションからDLLまたはMSIインストーラーをダウンロードするか、NuGetを介して.NETアプリケーションにAPIをインストールできます。
パッケージマネージャーコンソールからインストール
PM> Install-Package GroupDocs.Redaction
NuGetパッケージマネージャーを介してインストール
C#を使用してPDFテキストとスキャン画像テキストを編集する
すでに議論されている多くの異なるドキュメント内のテキストを見つけて置き換える方法があります。任意のドキュメントで特定の単語を検索したり、大文字と小文字を区別して検索したり、正規表現を使用して検索したりできます。次のPDFドキュメントを使用します。このドキュメントには、テキストとテキストを含む画像が含まれています。ここでは、GroupDocs.Redactionfor.NETを使用してOCRと編集プロセスを組み合わせます。まず、ドキュメント内のテキストと、ドキュメントの画像内にあるテキストを識別します。次に、スキャンしたドキュメント画像内のテキストであっても、法的情報や機密情報をプログラムで非表示にする方法を示すために、ブラックボックスで覆います。
次の手順では、PDFドキュメント内のテキストを検出して置き換えます。このテキストには、通常のテキストと埋め込み画像内のテキストが含まれています。
- 任意のOCRコネクタを使用してRedactor設定を準備します。
- 準備された設定と特定のロードオプションを使用して、Redactorクラスを使用してPDFドキュメントをロードします。
- 交換オプションを定義します。テキストを黒く塗りつぶすように定義しました。
- テキストの編集には、適切なテキスト選択戦略を使用してください。 RegExを使用しました。
- Applyメソッドを使用して編集を適用します。
- 編集した文書は保存で保存してください。
次のソースコードは、C#を使用してPDFドキュメント内の選択されたテキストを編集します。
// C#を使用してスキャンしたドキュメントのようにPDFのテキストと画像のテキストを編集する
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
var marker = new ReplacementOptions(Color.Black);
var redactions = new Redaction[] {
new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
new RegexRedaction(@"\d{4}", marker) // Card Number
};
var result = redactor.Apply(redactions);
if (result.Status != RedactionStatus.Failed)
{
redactor.Save(new SaveOptions(false, "OnPremise"));
}
}
上記のコードの出力は次のとおりで、PDFドキュメントの選択したテキストを黒く塗りつぶします。
無料のAPIライセンスを取得する
無料の一時ライセンスを取得して、評価の制限なしにAPIを使用できます。
結論
要約すると、あなたは文書のテキストを編集することを学びました。さらに重要かつ正確に、C#を使用してPDFドキュメント内の画像のテキストを編集する方法について説明しました。正規表現を使用して編集するテキストを選択しましたが、前述のようにさまざまな方法で選択できます。後で、検索されたテキストの上に黒い長方形のボックスを使用して、検索結果をブラックアウトします。
APIの詳細については、ドキュメントにアクセスしてください。お問い合わせは、フォーラムまでお問い合わせください。