Redactar PDF y documentos escaneados en C#

A menudo necesitamos ocultar la información confidencial y sensible dentro de los documentos. En otros artículos, hemos discutido las diferentes estrategias para buscar palabras e incluso buscar sinónimos dentro de múltiples documentos. Este artículo lo guía sobre cómo redactar texto PDF y texto en imágenes dentro de un documento usando C#.

A continuación se tratarán los siguientes temas:

Redacción de texto e imagen - .NET API
Redactar texto PDF e información escaneada usando C#

API .NET para redacción de texto e imágenes

GroupDocs.Redaction proporciona document redaction .NET API que permite ocultar y eliminar información confidencial dentro de documentos de varios formatos de archivo. Junto con la redacción y rasterización de texto simple, la API también permite identificar el texto en imágenes que pueden haber estado dentro de cualquier documento, como los archivos PDF escaneados más utilizados. La lista completa de formatos de archivo compatibles está disponible en la documentación.

Puede descargar el instalador DLL o MSI desde la sección de descargas o instalar la API en su aplicación .NET a través de NuGet.

Instalar a través de la consola del administrador de paquetes

PM> Install-Package GroupDocs.Redaction

Instalar a través del Administrador de paquetes NuGet

GroupDocs.Redaction - Paquete NuGet - Instalar

Redactar texto PDF y texto de imagen escaneada usando C#

Hay muchas formas de buscar y reemplazar texto en documentos que ya se han discutido. Puede buscar palabras específicas en cualquier documento, distinguir entre mayúsculas y minúsculas o usar expresiones regulares. Usaré el siguiente documento PDF, que contiene algo de texto y también una imagen con algo de texto. Aquí combinaremos el OCR y el proceso de redacción usando GroupDocs.Redaction para .NET. En primer lugar, identificaremos el texto del documento y también el texto que se encuentra dentro de la imagen del documento. En segundo lugar, lo cubriremos con un cuadro negro para demostrar cómo ocultar mediante programación cualquier información legal o confidencial, incluso si es texto dentro de la imagen de un documento escaneado.

Los siguientes pasos detectarán y reemplazarán el texto en un documento PDF, que contiene texto regular junto con texto dentro de una imagen incrustada.

Prepare la configuración del redactor utilizando cualquier conector OCR.
Cargue el documento PDF usando la clase Redactor con la configuración preparada y cualquier opción de carga específica.
Definir la opción de reemplazo. He definido oscurecer el texto.
Para la redacción del texto, utilice la estrategia de selección de texto adecuada. He usado RegEx.
Aplique las redacciones utilizando el método Aplicar.
Guarde el documento redactado utilizando el método Guardar.

El siguiente código fuente redacta el texto seleccionado dentro de un documento PDF usando C#.

// Redactar texto en PDF y texto en imagen como documento escaneado usando C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

El resultado del código anterior es el siguiente que oscurece el texto seleccionado del documento PDF.

Redactar texto PDF y texto de imagen escaneada

Obtenga una licencia de API gratuita

Puede obtener una licencia temporal gratuita para usar la API sin las limitaciones de evaluación.

Conclusión

En resumen, ha aprendido a redactar texto en documentos. Más importante y preciso, discutimos cómo redactar texto en imágenes dentro de un documento PDF usando C#. Seleccionamos el texto para redactar usando expresiones regulares, sin embargo, se puede seleccionar de muchas maneras diferentes, como se discutió anteriormente. Luego oscurecemos los resultados de la búsqueda usando un cuadro rectangular negro sobre el texto buscado.

Para obtener más detalles sobre la API, visite la documentación. Para consultas, contáctenos a través del foro.

Redactar documentos escaneados en PDF en C#

API .NET para redacción de texto e imágenes

Instalar a través de la consola del administrador de paquetes

Instalar a través del Administrador de paquetes NuGet

Redactar texto PDF y texto de imagen escaneada usando C#

Obtenga una licencia de API gratuita

Conclusión

Ver también

API .NET para redacción de texto e imágenes#

Instalar a través de la consola del administrador de paquetes#

Instalar a través del Administrador de paquetes NuGet#

Redactar texto PDF y texto de imagen escaneada usando C##

Obtenga una licencia de API gratuita#

Conclusión#

Ver también#

API .NET para redacción de texto e imágenes

Instalar a través de la consola del administrador de paquetes

Instalar a través del Administrador de paquetes NuGet

Redactar texto PDF y texto de imagen escaneada usando C#

Obtenga una licencia de API gratuita

Conclusión

Ver también