문서에 있는 비밀 또는 민감한 정보를 보호하고 싶으십니까? 일반 텍스트 정보이거나 이미지가 포함된 스캔 문서가 있는 텍스트인 경우에도 가능합니다. 이전 기사는 단어를 검색하는 다양한 전략여러 문서 내에서 동의어 검색에 대해 논의한 검색을 구체화하는 데 도움이 될 수 있습니다. 이 문서에서는 Java를 사용하여 문서 내에서 PDF 텍스트와 이미지의 텍스트를 수정하는 방법에 대해 안내합니다.

아래에서 다음 주제를 다룹니다.

텍스트 및 이미지 수정을 위한 Java API

GroupDocs.Redaction은 기밀정보 보안을 위한 교정 솔루션을 제공합니다. Java API를 사용하면 Java 기반 애플리케이션에서 다양한 파일 형식의 문서 내 기밀 정보를 수정하거나 제거할 수 있습니다. 간단한 텍스트 수정 및 래스터화와 함께 API를 사용하면 가장 일반적으로 사용되는 스캔 PDF 파일과 같이 문서 내부에 있을 수 있는 이미지의 텍스트를 식별할 수 있습니다. 지원되는 파일 형식의 전체 목록은 문서에서 확인할 수 있습니다.

다운로드 또는 구성

다운로드 섹션에서 JAR 파일을 다운로드하거나 maven 기반 Java 애플리케이션의 pox.xml에 대한 최신 저장소 및 종속성 구성을 얻을 수 있습니다.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

Java를 사용하여 PDF 텍스트 및 스캔한 이미지 텍스트 수정

우리는 이미 다양한 문서에서 텍스트를 찾고 바꾸는 방법에 대해 논의했습니다. 그러나 이미지 내의 텍스트를 수정할 수도 있습니다. 일부 텍스트와 일부 텍스트가 포함된 이미지가 포함된 다음 PDF 문서를 사용하겠습니다. 이를 위해 OCR과 편집 프로세스를 결합해야 합니다. 먼저 문서의 텍스트와 문서 이미지 내부의 텍스트를 식별합니다. 그런 다음 스캔한 문서 이미지 내의 텍스트인 경우에도 법적, 기밀 또는 비밀 정보를 프로그래밍 방식으로 숨기기 위해 블랙 박스로 덮을 것입니다.

텍스트 및 스캔한 이미지가 있는 PDF

다음 단계에서는 일반 텍스트 또는 포함된 이미지 내의 텍스트가 포함된 PDF 문서의 텍스트를 감지하고 바꿉니다.

  • OCR 커넥터를 사용하여 편집자 설정을 준비합니다.
  • Redactor 클래스를 사용하여 PDF 파일을 로드하고 특정 로드 옵션이 필요한 경우에도 로드하십시오.
  • 교체 옵션을 정의합니다. 나는 텍스트를 검은색으로 선택합니다.
  • 교정을 준비합니다. Phrase Redaction 또는 RegEx redaction과 같은 적절한 교정 전략을 사용하십시오.
  • 적용 방법을 사용하여 수정 사항을 적용합니다.
  • 저장 방식으로 수정된 문서를 저장합니다.

다음 소스 코드는 Java를 사용하여 PDF 문서 내에서 선택한 텍스트를 수정합니다.

// Java를 사용하여 스캔한 문서와 같은 PDF의 텍스트 및 이미지의 텍스트 수정
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

위 코드의 출력은 PDF 문서의 선택된 텍스트를 검게 칠한 상태에서 다음과 같습니다.

PDF 텍스트 및 스캔한 이미지 텍스트 수정

무료 API 라이선스 받기

임시 무료 라이선스 받기 평가 제한 없이 API를 사용할 수 있습니다.

결론

결론적으로 문서에서 텍스트를 수정하는 방법을 배웠습니다. 또한 Java를 사용하여 PDF 문서 내 이미지의 텍스트를 수정하는 방법에 대해 논의했습니다. 마찬가지로 다른 형식의 문서로 텍스트와 이미지를 수정할 수 있습니다. 우리는 정규식 교정을 사용했지만 다양한 방법을 사용하여 수행할 수도 있습니다. 나중에 블랙박스를 사용하여 검색 결과를 숨겼습니다.

API에 대한 자세한 내용은 문서를 참조하십시오. 문의 사항은 포럼을 통해 문의하십시오.

또한보십시오