Redactar PDF y documentos escaneados en Java

¿Quiere proteger la información secreta o confidencial que se encuentra dentro de los documentos? Es factible incluso si se trata de información textual regular o de texto con el documento escaneado con imágenes. Los artículos anteriores pueden ayudarlo a refinar su búsqueda, donde discutimos las diferentes estrategias para buscar palabras y buscar sinónimos dentro de varios documentos. Este artículo lo guía sobre cómo redactar texto PDF y texto en imágenes dentro de un documento usando Java.

A continuación se tratarán los siguientes temas:

Redacción de texto e imagen – API de Java
Redactar texto PDF e información escaneada usando Java

API de Java para redacción de texto e imágenes

GroupDocs.Redaction proporciona la solución de redacción para asegurar la información clasificada. Su API de Java le permite redactar o eliminar información confidencial dentro de documentos de varios formatos de archivo de sus aplicaciones basadas en Java. Junto con la redacción y rasterización de texto simple, la API también permite identificar el texto en imágenes que pueden haber estado dentro de cualquier documento, como los archivos PDF escaneados más comúnmente utilizados. La lista completa de formatos de archivo admitidos está disponible en la documentación.

Descargar o configurar

Puede descargar el archivo JAR de la sección de descargas, o simplemente obtener las configuraciones de dependencia y repositorio más recientes para el pom.xml de sus aplicaciones Java basadas en maven.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

Redactar texto PDF y texto de imagen escaneada usando Java

Ya hemos discutido las diferentes formas de buscar y reemplazar texto en documentos. Sin embargo, también podemos redactar texto dentro de las imágenes. Usaré el siguiente documento PDF, que contiene algo de texto y también una imagen con algo de texto. Para esto, necesitamos combinar OCR con el proceso de redacción. En primer lugar, identificaremos el texto del documento y también el texto que se encuentra dentro de la imagen del documento. Luego, lo cubriremos con un cuadro negro para ocultar mediante programación cualquier información legal, confidencial o secreta, incluso si es como texto dentro de la imagen de un documento escaneado.

Los siguientes pasos detectarán y reemplazarán el texto en los documentos PDF, que contiene texto regular o cualquier texto dentro de las imágenes incrustadas.

Prepare la configuración del redactor utilizando cualquier conector OCR.
Cargue su archivo PDF usando la clase Redactor y también si se requieren opciones de carga específicas.
Defina sus opciones de reemplazo. Estoy optando por oscurecer el texto.
Preparar las redacciones; utilice la estrategia de redacción adecuada, como Redacción de frases o Redacción RegEx.
Aplique las redacciones utilizando el método aplicar.
Guarde el documento redactado utilizando el método guardar.

El siguiente código fuente redacta el texto seleccionado dentro de un documento PDF utilizando Java.

// Redactar texto en PDF y texto en imagen como documento escaneado usando Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

El resultado del código anterior es el siguiente con el texto seleccionado en negro del documento PDF.

Redactar texto PDF y texto de imagen escaneada

Obtenga una licencia de API gratuita

Puede obtener una licencia temporal gratuita para usar la API sin las limitaciones de evaluación.

Conclusión

Para concluir, ha aprendido a redactar texto en documentos. Además, discutimos cómo redactar texto en las imágenes dentro de un documento PDF usando Java. Del mismo modo, puede redactar texto e imágenes con documentos de cualquier otro formato. Usamos la redacción de expresiones regulares, sin embargo, también se puede hacer de muchas maneras diferentes. Más tarde ocultamos los resultados de la búsqueda usando un cuadro negro.

Para obtener más detalles sobre la API, visite la documentación. Para consultas, contáctenos a través del foro.

Redactar documentos escaneados en PDF en Java

API de Java para redacción de texto e imágenes

Descargar o configurar

Redactar texto PDF y texto de imagen escaneada usando Java

Obtenga una licencia de API gratuita

Conclusión

Ver también

API de Java para redacción de texto e imágenes#

Descargar o configurar#

Redactar texto PDF y texto de imagen escaneada usando Java#

Obtenga una licencia de API gratuita#

Conclusión#

Ver también#

API de Java para redacción de texto e imágenes

Descargar o configurar

Redactar texto PDF y texto de imagen escaneada usando Java

Obtenga una licencia de API gratuita

Conclusión

Ver también