Хотите защитить секретную или конфиденциальную информацию, содержащуюся в документах? Это выполнимо, даже если это обычная текстовая информация или это текст с отсканированным документом с изображениями. Предыдущие статьи могут помочь вам уточнить поиск, где мы обсуждали различные стратегии поиска слов и поиск синонимов в нескольких документах. В этой статье рассказывается о том, как редактировать текст PDF и текст в изображениях в документе с помощью Java.
Ниже будут рассмотрены следующие темы:
- Редактирование текста и изображений – Java API
- Редактировать текст PDF и отсканированную информацию с помощью Java
Java API для редактирования текста и изображений
GroupDocs.Redaction предоставляет решение редактирования для защиты секретной информации. Его Java API позволяет вам редактировать или удалять конфиденциальную информацию в документах различных форматов файлов из ваших приложений на основе Java. Наряду с простым редактированием текста и растеризацией, API также позволяет идентифицировать текст в изображениях, которые могли быть внутри любого документа, например наиболее часто используемые отсканированные PDF-файлы. Полный список поддерживаемых форматов файлов доступен в документации.
Загрузите или настройте
Вы можете загрузить файл JAR из раздела загрузок или просто получить последний репозиторий и конфигурации зависимостей для pom.xml ваших на основе maven приложений Java.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-redaction</artifactId>
<version>21.6</version>
</dependency>
Редактируйте текст PDF и текст отсканированного изображения с помощью Java
Мы уже обсуждали различные способы поиска и замены текста в документах. Однако мы также можем редактировать текст внутри изображений. Я буду использовать следующий PDF-документ, который содержит текст, а также изображение с текстом. Для этого нам нужно совместить OCR с процессом редактирования. Во-первых, мы идентифицируем текст в документе, а также текст, который находится внутри изображения документа. Затем мы накроем его черным ящиком, чтобы программно скрыть любую юридическую, конфиденциальную или секретную информацию, даже если она представлена в виде текста на отсканированном изображении документа.
Следующие шаги обнаружат и заменят текст в документах PDF, который содержит обычный текст или любой текст во встроенных изображениях.
- Подготовьте настройки редактора с помощью любого OCR Connector.
- Загрузите файл PDF с помощью класса Redactor, а также, если требуются какие-либо специальные параметры загрузки.
- Определите свои варианты замены. Я предпочитаю затемнять текст.
- Подготовка редакций; используйте соответствующую стратегию редактирования, например Редактирование фраз или Редактирование регулярных выражений.
- Примените исправления, используя метод apply.
- Сохраните отредактированный документ методом save.
Следующий исходный код редактирует выделенный текст в документе PDF с помощью Java.
// Редактируйте текст в PDF и текст в изображении, как отсканированный документ, с помощью Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
Redaction redactions[] = new Redaction[] {
new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
new RegexRedaction("\\d{4}", marker) // card number parts
};
RedactorChangeLog result = redactor.apply(redactions);
if (result.getStatus() != RedactionStatus.Failed)
{
redactor.save(new SaveOptions(false, "redacted"));
}
}
Вывод приведенного выше кода с затемненным выделенным текстом документа PDF выглядит следующим образом.
Получите бесплатную лицензию API
Вы можете получить бесплатную временную лицензию для использования API без ограничений пробной версии.
Вывод
В заключение вы узнали, как редактировать текст в документах. Кроме того, мы обсудили, как редактировать текст на изображениях в документе PDF с помощью Java. Точно так же вы можете редактировать текст и изображения с документами любого другого формата. Мы использовали редактирование регулярных выражений, однако это также можно сделать разными способами. Позже мы скрыли результаты поиска с помощью черного ящика.
Чтобы узнать больше об API, посетите документацию. По вопросам обращайтесь к нам через форум.