Muitas vezes, precisamos ocultar as informações confidenciais e confidenciais nos documentos. Em outros artigos, discutimos as diferentes estratégias para pesquisar palavras e até pesquisar sinônimos em vários documentos. Este artigo orienta você sobre como redigir texto e texto PDF em imagens em um documento usando C#.
Os seguintes tópicos serão abordados a seguir:
API .NET para redação de texto e imagem
GroupDocs.Redaction fornece a document redaction .NET API que permite ocultar e remover informações confidenciais em documentos de vários formatos de arquivo. Juntamente com a redação e rasterização de texto simples, a API também permite identificar o texto em imagens que podem estar dentro de qualquer documento, como os arquivos PDF digitalizados mais usados. A lista completa de formatos de arquivo suportados está disponível na documentação.
Você pode baixar o instalador DLLs ou MSI da seção de downloads ou instalar a API em seu aplicativo .NET via NuGet.
Instalar via Console do Gerenciador de Pacotes
PM> Install-Package GroupDocs.Redaction
Instalar via Gerenciador de Pacotes NuGet
Redigir texto PDF e texto de imagem digitalizada usando C#
Existem muitas maneiras de localizar e substituir texto em documentos que já foram discutidas. Você pode encontrar palavras específicas em qualquer documento, com distinção entre maiúsculas e minúsculas ou usando expressões regulares. Estarei usando o seguinte documento PDF, que contém algum texto e também uma imagem com algum texto. Aqui vamos combinar o processo de OCR e redação usando GroupDocs.Redaction para .NET. Primeiramente, vamos identificar o texto no documento e também o texto que está dentro da imagem do documento. Em segundo lugar, vamos cobri-lo com uma caixa preta para demonstrar como ocultar programaticamente qualquer informação legal ou confidencial, mesmo que seja como texto dentro de uma imagem de documento digitalizada.
As etapas a seguir detectarão e substituirão o texto em um documento PDF, que contém texto normal junto com algum texto em uma imagem incorporada.
- Prepare as configurações do redator usando qualquer conector OCR.
- Carregue o documento PDF usando a classe Redactor com as configurações preparadas e quaisquer opções de carregamento específicas.
- Defina a opção de substituição. Eu defini para escurecer o texto.
- Para a redação do texto, use a estratégia de seleção de texto apropriada. Eu usei RegEx.
- Aplique as redações usando o método Apply.
- Salve o documento editado usando o método Save.
O código-fonte a seguir edita o texto selecionado em um documento PDF usando C#.
// Redigir texto em PDF e texto em imagem como documento digitalizado usando C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
var marker = new ReplacementOptions(Color.Black);
var redactions = new Redaction[] {
new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
new RegexRedaction(@"\d{4}", marker) // Card Number
};
var result = redactor.Apply(redactions);
if (result.Status != RedactionStatus.Failed)
{
redactor.Save(new SaveOptions(false, "OnPremise"));
}
}
A saída do código acima é a seguinte, que escurece o texto selecionado do documento PDF.
Obtenha uma licença de API gratuita
Você pode obter uma licença temporária gratuita para usar a API sem as limitações de avaliação.
Conclusão
Para resumir, você aprendeu a redigir texto em documentos. Mais importante e precisamente, discutimos como redigir texto em imagens em um documento PDF usando C#. Selecionamos o texto para redigir usando expressões regulares, no entanto, ele pode ser selecionado de muitas maneiras diferentes, conforme discutido anteriormente. Mais tarde, ocultamos os resultados da pesquisa usando uma caixa retangular preta sobre o texto pesquisado.
Para obter mais detalhes sobre a API, visite a documentação. Para dúvidas, entre em contato conosco através do fórum.