Хотите защитить секретную или конфиденциальную информацию, содержащуюся в документах? Это выполнимо, даже если это обычная текстовая информация или это текст с отсканированным документом с изображениями. Предыдущие статьи могут помочь вам уточнить поиск, где мы обсуждали различные стратегии поиска слов и поиск синонимов в нескольких документах. В этой статье рассказывается о том, как редактировать текст PDF и текст в изображениях в документе с помощью Java.

Ниже будут рассмотрены следующие темы:

Java API для редактирования текста и изображений

GroupDocs.Redaction предоставляет решение редактирования для защиты секретной информации. Его Java API позволяет вам редактировать или удалять конфиденциальную информацию в документах различных форматов файлов из ваших приложений на основе Java. Наряду с простым редактированием текста и растеризацией, API также позволяет идентифицировать текст в изображениях, которые могли быть внутри любого документа, например наиболее часто используемые отсканированные PDF-файлы. Полный список поддерживаемых форматов файлов доступен в документации.

Загрузите или настройте

Вы можете загрузить файл JAR из раздела загрузок или просто получить последний репозиторий и конфигурации зависимостей для pox.xml ваших на основе maven приложений Java.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

Редактируйте текст PDF и текст отсканированного изображения с помощью Java

Мы уже обсуждали различные способы поиска и замены текста в документах. Однако мы также можем редактировать текст внутри изображений. Я буду использовать следующий PDF-документ, который содержит текст, а также изображение с текстом. Для этого нам нужно совместить OCR с процессом редактирования. Во-первых, мы идентифицируем текст в документе, а также текст, который находится внутри изображения документа. Затем мы накроем его черным ящиком, чтобы программно скрыть любую юридическую, конфиденциальную или секретную информацию, даже если она представлена в виде текста на отсканированном изображении документа.

PDF с текстом и отсканированным изображением

Следующие шаги обнаружат и заменят текст в документах PDF, который содержит обычный текст или любой текст во встроенных изображениях.

  • Подготовьте настройки редактора с помощью любого OCR Connector.
  • Загрузите файл PDF с помощью класса Redactor, а также, если требуются какие-либо специальные параметры загрузки.
  • Определите свои варианты замены. Я предпочитаю затемнять текст.
  • Подготовка редакций; используйте соответствующую стратегию редактирования, например Редактирование фраз или Редактирование регулярных выражений.
  • Примените исправления, используя метод apply.
  • Сохраните отредактированный документ методом save.

Следующий исходный код редактирует выделенный текст в документе PDF с помощью Java.

// Редактируйте текст в PDF и текст в изображении, как отсканированный документ, с помощью Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

Вывод приведенного выше кода с затемненным выделенным текстом документа PDF выглядит следующим образом.

Редактировать текст PDF и текст отсканированного изображения

Получите бесплатную лицензию API

Вы можете получить бесплатную временную лицензию для использования API без ограничений пробной версии.

Вывод

В заключение вы узнали, как редактировать текст в документах. Кроме того, мы обсудили, как редактировать текст на изображениях в документе PDF с помощью Java. Точно так же вы можете редактировать текст и изображения с документами любого другого формата. Мы использовали редактирование регулярных выражений, однако это также можно сделать разными способами. Позже мы скрыли результаты поиска с помощью черного ящика.

Чтобы узнать больше об API, посетите документацию. По вопросам обращайтесь к нам через форум.

Смотрите также