Бажаєте захистити таємну або конфіденційну інформацію, яка міститься в документах? Це можливо, навіть якщо це звичайна текстова інформація або це текст зі сканованим документом із зображеннями. Попередні статті можуть допомогти вам уточнити пошук, де ми обговорювали різні стратегії пошуку слів і пошук синонімів у кількох документах. Ця стаття допоможе вам відредагувати текст PDF і текст у зображеннях у документі за допомогою Java.

Нижче будуть розглянуті такі теми:

Java API для редагування тексту та зображень

GroupDocs.Redaction надає рішення редагування для захисту секретної інформації. Його Java API дозволяє редагувати або видаляти конфіденційну інформацію в документах різних форматів файлів із ваших програм на основі Java. Окрім простого редагування та растеризації тексту, API також дозволяє ідентифікувати текст на зображеннях, які могли бути всередині будь-якого документа, наприклад, найчастіше використовуваних сканованих PDF-файлів. Повний список підтримуваних форматів файлів доступний у документації.

Завантажити або налаштувати

Ви можете завантажити файл JAR із розділу завантажень або просто отримати найновіші конфігурації репозиторію та залежностей для pom.xml ваших програм Java на основі Maven.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

Відредагуйте PDF-текст і сканований текст зображень за допомогою Java

Ми вже обговорювали різні способи пошуку та заміни тексту в документах. Однак ми також можемо редагувати текст у зображеннях. Я буду використовувати наступний PDF-документ, який містить деякий текст, а також зображення з деяким текстом. Для цього нам потрібно поєднати OCR із процесом редагування. По-перше, ми визначимо текст у документі, а також текст, який знаходиться всередині зображення документа. Потім ми закриємо його чорним ящиком, щоб програмно приховати будь-яку юридичну, конфіденційну чи секретну інформацію, навіть якщо вона є текстом у відсканованому зображенні документа.

PDF з текстом і сканованим зображенням

У наступних кроках буде виявлено та замінено текст у документах PDF, який містить звичайний текст або будь-який текст у вбудованих зображеннях.

  • Підготуйте налаштування редактора за допомогою будь-якого OCR Connector.
  • Завантажте свій PDF-файл за допомогою класу Redactor, а також якщо потрібні певні параметри завантаження.
  • Визначте свої параметри заміни. Я вирішую затемнити текст.
  • Підготувати редакції; використовуйте відповідну стратегію редагування, наприклад Редакція фрази або Редакція RegEx.
  • Застосуйте редагування за допомогою методу apply.
  • Збережіть відредагований документ за допомогою методу save.

Наступний вихідний код редагує виділений текст у PDF-документі за допомогою Java.

// Відредагуйте текст у PDF і текст у зображенні, як сканований документ, за допомогою Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

Наведений вище код виводить наведений нижче текст із затемненим виділеним текстом документа PDF.

Відредагуйте текст PDF і текст сканованого зображення

Отримайте безкоштовну ліцензію API

Ви можете отримати безкоштовну тимчасову ліцензію, щоб використовувати API без оціночних обмежень.

Висновок

Підсумовуючи, ви навчилися редагувати текст у документах. Крім того, ми обговорили, як редагувати текст на зображеннях у PDF-документі за допомогою Java. Так само ви можете редагувати текст і зображення з документами будь-якого іншого формату. Ми використали редагування регулярних виразів, однак це також можна зробити різними способами. Пізніше ми приховали результати пошуку за допомогою чорного ящика.

Щоб дізнатися більше про API, відвідайте документацію. Якщо у вас виникли запитання, зв’яжіться з нами через форум.

Дивись також