Często musimy ukryć poufne i wrażliwe informacje w dokumentach. W innych artykułach omawialiśmy różne strategie wyszukiwania słów, a nawet wyszukiwanie synonimów w wielu dokumentach. Ten artykuł zawiera wskazówki dotyczące redagowania tekstu PDF i tekstu w obrazach w dokumencie przy użyciu języka C#.

Poniżej zostaną omówione następujące tematy:

Interfejs API platformy .NET do redagowania tekstu i obrazów

GroupDocs.Redaction zapewnia redakcja dokumentów .NET API, która umożliwia ukrywanie i usuwanie poufnych informacji w dokumentach o różnych formatach plików. Oprócz prostej redakcji tekstu i rasteryzacji, interfejs API umożliwia również identyfikację tekstu w obrazach, które mogły znajdować się w dowolnym dokumencie, takim jak najczęściej używane zeskanowane pliki PDF. Pełna lista obsługiwanych formatów plików jest dostępna w dokumentacji.

Możesz pobrać instalator bibliotek DLL lub MSI z sekcji pobierania lub zainstalować interfejs API w swojej aplikacji .NET za pośrednictwem NuGet.

Zainstaluj za pomocą konsoli Menedżera pakietów

PM> Install-Package GroupDocs.Redaction

Zainstaluj za pomocą Menedżera pakietów NuGet

GroupDocs.Redaction — pakiet NuGet — instalacja

Redaguj tekst PDF i tekst zeskanowanego obrazu za pomocą C#

Istnieje wiele różnych sposobów znajdowania i zastępowania tekstu w dokumentach, które zostały już omówione. Możesz znaleźć określone słowa w dowolnym dokumencie, z uwzględnieniem wielkości liter lub używając wyrażeń regularnych. Będę używał następującego dokumentu PDF, który zawiera trochę tekstu, a także obraz z tekstem. Tutaj połączymy proces OCR i redagowania przy użyciu GroupDocs.Redaction for .NET. Najpierw zidentyfikujemy tekst w dokumencie, a także tekst znajdujący się wewnątrz obrazu dokumentu. Po drugie, zakryjemy to czarną skrzynką, aby zademonstrować, jak programowo ukryć wszelkie informacje prawne lub poufne, nawet jeśli są one tekstem na obrazie zeskanowanego dokumentu.

PDF z tekstem i zeskanowanym obrazem

Poniższe kroki pozwolą wykryć i zastąpić tekst w dokumencie PDF, który zawiera zwykły tekst oraz część tekstu w osadzonym obrazie.

  • Przygotuj ustawienia edytora za pomocą dowolnego złącza OCR.
  • Załaduj dokument PDF za pomocą klasy Redactor z przygotowanymi ustawieniami i dowolnymi określonymi opcjami ładowania.
  • Zdefiniuj opcję zamiany. Zdefiniowałem zaciemnianie tekstu.
  • Do redakcji tekstu użyj odpowiedniej strategii selekcji tekstu. Użyłem RegEx.
  • Zastosuj zmiany przy użyciu metody Zastosuj.
  • Zapisz zredagowany dokument metodą Save.

Poniższy kod źródłowy redaguje zaznaczony tekst w dokumencie PDF przy użyciu języka C#.

// Redaguj tekst w formacie PDF i tekst w obrazie, jak zeskanowany dokument, używając C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

Dane wyjściowe powyższego kodu są następujące: zaciemnij zaznaczony tekst dokumentu PDF.

Redaguj tekst PDF i zeskanowany tekst obrazu

Uzyskaj bezpłatną licencję API

Możesz uzyskać bezpłatną tymczasową licencję na korzystanie z API bez ograniczeń ewaluacyjnych.

Wniosek

Podsumowując, nauczyłeś się redagować tekst w dokumentach. Co ważniejsze i dokładniej, omówiliśmy sposób redagowania tekstu w obrazach w dokumencie PDF za pomocą języka C#. Wybraliśmy tekst do redakcji za pomocą wyrażeń regularnych, jednak można go wybrać na wiele różnych sposobów, jak omówiono wcześniej. Później zaciemniamy wyniki wyszukiwania za pomocą czarnego prostokąta nad wyszukiwanym tekstem.

Aby uzyskać więcej informacji na temat interfejsu API, odwiedź dokumentację. W przypadku pytań skontaktuj się z nami za pośrednictwem forum.

Zobacz też