Často potřebujeme skrýt důvěrné a citlivé informace v dokumentech. V jiných článcích jsme diskutovali o různých strategiích vyhledávání slov a dokonce hledání synonym ve více dokumentech. Tento článek vás provede tím, jak redigovat text PDF a text v obrázcích v dokumentu pomocí C#.

Níže budou probrána následující témata:

.NET API pro úpravu textu a obrázků

GroupDocs.Redaction poskytuje redigování dokumentů .NET API, které umožňuje skrytí a odstranění důvěrných informací v dokumentech různých formátů souborů. Spolu s jednoduchou textovou redigací a rasterizací umožňuje API také identifikovat text v obrázcích, které mohly být uvnitř jakéhokoli dokumentu, jako jsou nejčastěji používané naskenované soubory PDF. Úplný seznam podporovaných formátů souborů je k dispozici v dokumentaci.

Můžete si stáhnout DLL nebo MSI instalační program z části ke stažení nebo nainstalovat API do vaší aplikace .NET prostřednictvím NuGet.

Nainstalujte pomocí konzoly Správce balíčků

PM> Install-Package GroupDocs.Redaction

Nainstalujte přes NuGet Package Manager

GroupDocs.Redaction – balíček NuGet – instalace

Úprava textu PDF a textu naskenovaného obrázku pomocí C#

Existuje mnoho různých způsobů, jak najít a nahradit text v dokumentech, o kterých již byla řeč. Konkrétní slova můžete najít v jakémkoli dokumentu, hledat s rozlišováním malých a velkých písmen nebo pomocí regulárních výrazů. Budu používat následující dokument PDF, který obsahuje nějaký text a také obrázek s nějakým textem. Zde zkombinujeme proces OCR a redakce pomocí GroupDocs.Redaction for .NET. Nejprve identifikujeme text v dokumentu a také text, který je uvnitř obrázku dokumentu. Za druhé jej zakryjeme černou skříňkou, abychom ukázali, jak programově skrýt jakékoli právní nebo důvěrné informace, i když jsou jako text v naskenovaném obrázku dokumentu.

PDF s textem a naskenovaným obrázkem

Následující kroky detekují a nahradí text v dokumentu PDF, který obsahuje běžný text spolu s nějakým textem ve vloženém obrázku.

  • Připravte nastavení editoru pomocí libovolného konektoru OCR.
  • Načtěte dokument PDF pomocí třídy Redactor s připraveným nastavením a případnými specifickými možnostmi načítání.
  • Definujte možnost nahrazení. Definoval jsem začernění textu.
  • Pro úpravu textu použijte vhodnou strategii výběru textu. Použil jsem RegEx.
  • Aplikujte redakce pomocí metody Apply.
  • Uložte redigovaný dokument pomocí metody Uložit.

Následující zdrojový kód rediguje vybraný text v dokumentu PDF pomocí jazyka C#.

// Upravte text v PDF a text v obrázku jako naskenovaný dokument pomocí C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

Výstup výše uvedeného kódu je následující, který začerní vybraný text dokumentu PDF.

Upravte text PDF a text naskenovaného obrázku

Získejte bezplatnou licenci API

Můžete získat bezplatnou dočasnou licenci k používání API bez omezení hodnocení.

Závěr

Abych to shrnul, naučili jste se redigovat text v dokumentech. Ještě důležitější a přesněji jsme diskutovali o tom, jak redigovat text v obrázcích v dokumentu PDF pomocí C#. Vybrali jsme text k redigování pomocí regulárních výrazů, lze jej však vybrat mnoha různými způsoby, jak bylo uvedeno výše. Později výsledky vyhledávání začerníme pomocí černého obdélníkového rámečku nad hledaným textem.

Další podrobnosti o rozhraní API naleznete v dokumentaci. V případě dotazů nás kontaktujte prostřednictvím fóra.

Viz také