Chcesz zabezpieczyć poufne lub poufne informacje zawarte w dokumentach? Jest to wykonalne nawet jeśli jest to zwykła informacja tekstowa lub jest to tekst z zeskanowanym dokumentem z obrazami. Wcześniejsze artykuły mogą pomóc w uściśleniu wyszukiwania, w których omówiliśmy różne strategie wyszukiwania słów i wyszukiwanie synonimów w wielu dokumentach. Ten artykuł zawiera wskazówki dotyczące redagowania tekstu PDF i tekstu w obrazach w dokumencie za pomocą języka Java.

Poniżej zostaną omówione następujące tematy:

Java API do redagowania tekstu i obrazów

GroupDocs.Redaction zapewnia rozwiązanie redakcyjne do zabezpieczania informacji niejawnych. Jego Java API umożliwia redagowanie lub usuwanie poufnych informacji w dokumentach o różnych formatach plików z aplikacji opartych na Javie. Oprócz prostej redakcji tekstu i rasteryzacji, interfejs API umożliwia również identyfikację tekstu w obrazach, które mogły znajdować się w dowolnym dokumencie, takim jak najczęściej używane zeskanowane pliki PDF. Pełna lista obsługiwanych formatów plików jest dostępna w dokumentacji.

Pobierz lub skonfiguruj

Możesz pobrać plik JAR z sekcji pobierania lub po prostu pobrać najnowsze konfiguracje repozytorium i zależności dla pliku pom.xml aplikacji Java opartych na Maven.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

Redaguj tekst PDF i tekst zeskanowanego obrazu za pomocą języka Java

Omówiliśmy już różne sposoby znajdowania i zastępowania tekstu w dokumentach. Możemy jednak również redagować tekst w obrazach. Użyję następującego dokumentu PDF, który zawiera trochę tekstu, a także obraz z tekstem. W tym celu musimy połączyć OCR z procesem redagowania. Najpierw zidentyfikujemy tekst w dokumencie, a także tekst znajdujący się wewnątrz obrazu dokumentu. Następnie przykryjemy go czarną skrzynką, aby programowo ukryć wszelkie informacje prawne, poufne lub tajne, nawet jeśli są one tekstem na zeskanowanym obrazie dokumentu.

PDF z tekstem i zeskanowanym obrazem

Poniższe kroki pozwolą wykryć i zastąpić tekst w dokumentach PDF, który zawiera zwykły tekst lub dowolny tekst w osadzonych obrazach.

  • Przygotuj ustawienia edytora za pomocą dowolnego złącza OCR.
  • Załaduj swój plik PDF przy użyciu klasy Redactor, a także jeśli wymagane są jakieś określone opcje ładowania.
  • Zdefiniuj swoje opcje wymiany. Decyduję się na zaciemnienie tekstu.
  • Przygotuj redakcje; użyj odpowiedniej strategii redakcyjnej, takiej jak redakcja frazy lub redakcja RegEx.
  • Zastosuj zmiany przy użyciu metody zastosuj.
  • Zapisz zredagowany dokument za pomocą metody zapisz.

Poniższy kod źródłowy redaguje zaznaczony tekst w dokumencie PDF przy użyciu języka Java.

// Redaguj tekst w formacie PDF i tekst w obrazie, tak jak zeskanowany dokument, używając języka Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

Wyjście powyższego kodu jest następujące z zaczernionym zaznaczonym tekstem dokumentu PDF.

Redaguj tekst PDF i zeskanowany tekst obrazu

Uzyskaj bezpłatną licencję API

Możesz uzyskać bezpłatną tymczasową licencję na korzystanie z API bez ograniczeń ewaluacyjnych.

Wniosek

Podsumowując, nauczyłeś się redagować tekst w dokumentach. Ponadto omówiliśmy, jak redagować tekst w obrazach w dokumencie PDF za pomocą języka Java. Podobnie możesz redagować tekst i obrazy z dokumentami dowolnego innego formatu. Użyliśmy redakcji wyrażeń regularnych, jednak można to zrobić również na wiele różnych sposobów. Później ukryliśmy wyniki wyszukiwania za pomocą czarnej skrzynki.

Aby uzyskać więcej informacji na temat interfejsu API, odwiedź dokumentację. W przypadku pytań skontaktuj się z nami za pośrednictwem forum.

Zobacz też