Redigir PDF e documentos digitalizados em Java

Quer proteger o segredo ou as informações confidenciais que estão nos documentos? É factível mesmo que se trate de informação textual regular ou seja texto com o documento digitalizado com imagens. Os artigos anteriores podem ajudá-lo a refinar sua pesquisa, onde discutimos as diferentes estratégias para pesquisar palavras e pesquisar sinônimos em vários documentos. Este artigo orienta você sobre como redigir texto e texto PDF em imagens em um documento usando Java.

Os seguintes tópicos serão abordados a seguir:

Edição de texto e imagem – API Java
Editar texto PDF e informações digitalizadas usando Java

API Java para redação de texto e imagem

O GroupDocs.Redaction fornece a solução de redação para proteger as informações classificadas. Sua API Java permite que você redija ou remova informações confidenciais em documentos de vários formatos de arquivo de seus aplicativos baseados em Java. Juntamente com a redação e rasterização de texto simples, a API também permite identificar o texto em imagens que podem estar dentro de qualquer documento, como os arquivos PDF digitalizados mais usados. A lista completa de formatos de arquivo suportados está disponível na documentação.

Baixe ou configure

Você pode baixar o arquivo JAR da seção de downloads, ou apenas obter o repositório mais recente e as configurações de dependência para o pom.xml de seus aplicativos Java baseados em maven.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

Redigir texto PDF e texto de imagem digitalizada usando Java

Já discutimos as diferentes maneiras de localizar e substituir texto em documentos. No entanto, também podemos redigir texto dentro de imagens. Vou usar o seguinte documento PDF, que contém algum texto e também uma imagem com algum texto. Para isso, precisamos combinar o OCR com o processo de redação. Primeiramente, vamos identificar o texto no documento e também o texto que está dentro da imagem do documento. Em seguida, cobriremos com uma caixa preta para ocultar programaticamente qualquer informação legal, confidencial ou secreta, mesmo que seja como texto em uma imagem de documento digitalizada.

As etapas a seguir detectarão e substituirão o texto nos documentos PDF que contenham texto normal ou qualquer texto nas imagens incorporadas.

Prepare as configurações do redator usando qualquer conector OCR.
Carregue seu arquivo PDF usando a classe Redactor e também se houver alguma opção de carregamento específica necessária.
Defina suas opções de substituição. Estou optando por escurecer o texto.
Preparar as redações; use a estratégia de redação apropriada, como Phrase Redaction ou RegEx redaction.
Aplique as redações usando o método apply.
Salve o documento editado usando o método save.

O código-fonte a seguir edita o texto selecionado em um documento PDF usando Java.

// Redigir texto em PDF e texto em imagem como documento digitalizado usando Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

A saída do código acima é a seguinte com o texto selecionado em preto do documento PDF.

Redigir texto PDF e texto de imagem digitalizada

Obtenha uma licença de API gratuita

Você pode obter uma licença temporária gratuita para usar a API sem as limitações de avaliação.

Conclusão

Para concluir, você aprendeu como redigir texto em documentos. Além disso, discutimos como redigir texto nas imagens em um documento PDF usando Java. Da mesma forma, você pode redigir texto e imagens com documentos de qualquer outro formato. Usamos a redação de expressões regulares, no entanto, isso também pode ser feito de muitas maneiras diferentes. Mais tarde, ocultamos os resultados da pesquisa usando uma caixa preta.

Para obter mais detalhes sobre a API, visite a documentação. Para dúvidas, entre em contato conosco através do fórum.

Redigir documentos digitalizados em PDF em Java

API Java para redação de texto e imagem

Baixe ou configure

Redigir texto PDF e texto de imagem digitalizada usando Java

Obtenha uma licença de API gratuita

Conclusão

Veja também

API Java para redação de texto e imagem#

Baixe ou configure#

Redigir texto PDF e texto de imagem digitalizada usando Java#

Obtenha uma licença de API gratuita#

Conclusão#

Veja também#

API Java para redação de texto e imagem

Baixe ou configure

Redigir texto PDF e texto de imagem digitalizada usando Java

Obtenha uma licença de API gratuita

Conclusão

Veja também