Často potřebujeme skrýt důvěrné a citlivé informace v dokumentech. V jiných článcích jsme diskutovali o různých strategiích vyhledávání slov a dokonce hledání synonym ve více dokumentech. Tento článek vás provede tím, jak redigovat text PDF a text v obrázcích v dokumentu pomocí C#.
Níže budou probrána následující témata:
.NET API pro úpravu textu a obrázků
GroupDocs.Redaction poskytuje redigování dokumentů .NET API, které umožňuje skrytí a odstranění důvěrných informací v dokumentech různých formátů souborů. Spolu s jednoduchou textovou redigací a rasterizací umožňuje API také identifikovat text v obrázcích, které mohly být uvnitř jakéhokoli dokumentu, jako jsou nejčastěji používané naskenované soubory PDF. Úplný seznam podporovaných formátů souborů je k dispozici v dokumentaci.
Můžete si stáhnout DLL nebo MSI instalační program z části ke stažení nebo nainstalovat API do vaší aplikace .NET prostřednictvím NuGet.
Nainstalujte pomocí konzoly Správce balíčků
PM> Install-Package GroupDocs.Redaction
Nainstalujte přes NuGet Package Manager
Úprava textu PDF a textu naskenovaného obrázku pomocí C#
Existuje mnoho různých způsobů, jak najít a nahradit text v dokumentech, o kterých již byla řeč. Konkrétní slova můžete najít v jakémkoli dokumentu, hledat s rozlišováním malých a velkých písmen nebo pomocí regulárních výrazů. Budu používat následující dokument PDF, který obsahuje nějaký text a také obrázek s nějakým textem. Zde zkombinujeme proces OCR a redakce pomocí GroupDocs.Redaction for .NET. Nejprve identifikujeme text v dokumentu a také text, který je uvnitř obrázku dokumentu. Za druhé jej zakryjeme černou skříňkou, abychom ukázali, jak programově skrýt jakékoli právní nebo důvěrné informace, i když jsou jako text v naskenovaném obrázku dokumentu.
Následující kroky detekují a nahradí text v dokumentu PDF, který obsahuje běžný text spolu s nějakým textem ve vloženém obrázku.
- Připravte nastavení editoru pomocí libovolného konektoru OCR.
- Načtěte dokument PDF pomocí třídy Redactor s připraveným nastavením a případnými specifickými možnostmi načítání.
- Definujte možnost nahrazení. Definoval jsem začernění textu.
- Pro úpravu textu použijte vhodnou strategii výběru textu. Použil jsem RegEx.
- Aplikujte redakce pomocí metody Apply.
- Uložte redigovaný dokument pomocí metody Uložit.
Následující zdrojový kód rediguje vybraný text v dokumentu PDF pomocí jazyka C#.
// Upravte text v PDF a text v obrázku jako naskenovaný dokument pomocí C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
var marker = new ReplacementOptions(Color.Black);
var redactions = new Redaction[] {
new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
new RegexRedaction(@"\d{4}", marker) // Card Number
};
var result = redactor.Apply(redactions);
if (result.Status != RedactionStatus.Failed)
{
redactor.Save(new SaveOptions(false, "OnPremise"));
}
}
Výstup výše uvedeného kódu je následující, který začerní vybraný text dokumentu PDF.
Získejte bezplatnou licenci API
Můžete získat bezplatnou dočasnou licenci k používání API bez omezení hodnocení.
Závěr
Abych to shrnul, naučili jste se redigovat text v dokumentech. Ještě důležitější a přesněji jsme diskutovali o tom, jak redigovat text v obrázcích v dokumentu PDF pomocí C#. Vybrali jsme text k redigování pomocí regulárních výrazů, lze jej však vybrat mnoha různými způsoby, jak bylo uvedeno výše. Později výsledky vyhledávání začerníme pomocí černého obdélníkového rámečku nad hledaným textem.
Další podrobnosti o rozhraní API naleznete v dokumentaci. V případě dotazů nás kontaktujte prostřednictvím fóra.