문서 내에서 기밀 및 민감한 정보를 숨겨야 하는 경우가 많습니다. 다른 기사에서 단어 검색을 위한 다양한 전략여러 문서 내에서 동의어 검색에 대해 논의했습니다. 이 문서에서는 C#을 사용하여 문서 내의 이미지에 있는 PDF 텍스트와 텍스트를 수정하는 방법에 대해 안내합니다.

아래에서 다음 주제를 다룹니다.

텍스트 및 이미지 수정을 위한 .NET API

GroupDocs.Redaction은 다양한 파일 형식의 문서 내에서 기밀 정보를 숨기거나 제거할 수 있는 문서 수정 .NET API를 제공합니다. 간단한 텍스트 수정 및 래스터화와 함께 API를 사용하면 가장 일반적으로 사용되는 스캔 PDF 파일과 같이 문서 내부에 있을 수 있는 이미지의 텍스트를 식별할 수 있습니다. 지원되는 파일 형식의 전체 목록은 문서에서 확인할 수 있습니다.

다운로드 섹션에서 DLL 또는 MSI 설치 프로그램을 다운로드하거나 NuGet을 통해 .NET 애플리케이션에 API를 설치할 수 있습니다.

패키지 관리자 콘솔을 통해 설치

PM> Install-Package GroupDocs.Redaction

NuGet 패키지 관리자를 통해 설치

GroupDocs.Redaction - NuGet 패키지 - 설치

C#을 사용하여 PDF 텍스트 및 스캔한 이미지 텍스트 수정

이미 논의된 다양한 문서에서 텍스트를 찾고 바꾸는 방법이 있습니다. 모든 문서에서 특정 단어를 찾거나 대소문자를 구분하거나 정규식을 사용하여 찾을 수 있습니다. 일부 텍스트와 일부 텍스트가 포함된 이미지가 포함된 다음 PDF 문서를 사용할 것입니다. 여기에서는 GroupDocs.Redaction for .NET을 사용하여 OCR과 수정 프로세스를 결합합니다. 먼저 문서의 텍스트와 문서 이미지 내부의 텍스트를 식별합니다. 두 번째로, 법적 또는 기밀 정보가 스캔한 문서 이미지 내의 텍스트인 경우에도 프로그래밍 방식으로 숨기는 방법을 보여주기 위해 블랙박스로 덮을 것입니다.

텍스트와 스캔한 이미지가 있는 PDF

다음 단계에서는 포함된 이미지 내의 일부 텍스트와 함께 일반 텍스트가 포함된 PDF 문서의 텍스트를 감지하고 바꿉니다.

  • OCR 커넥터를 사용하여 편집자 설정을 준비합니다.
  • 준비된 설정과 특정 로딩 옵션이 있는 Redactor 클래스를 사용하여 PDF 문서를 로드합니다.
  • 교체 옵션을 정의합니다. 나는 텍스트를 검게 정의했습니다.
  • 텍스트 수정의 경우 적절한 텍스트 선택 전략을 사용하십시오. RegEx를 사용했습니다.
  • 적용 방법을 사용하여 수정 사항을 적용합니다.
  • 저장 방식으로 수정된 문서를 저장합니다.

다음 소스 코드는 C#을 사용하여 PDF 문서 내에서 선택한 텍스트를 수정합니다.

// C#을 사용하여 스캔한 문서와 같은 PDF의 텍스트 및 이미지의 텍스트 수정
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

위 코드의 출력은 PDF 문서의 선택된 텍스트를 검게 만드는 다음과 같습니다.

PDF 텍스트 및 스캔한 이미지 텍스트 수정

무료 API 라이선스 받기

임시 무료 라이선스 받기 평가 제한 없이 API를 사용할 수 있습니다.

결론

요약하자면, 문서에서 텍스트를 수정하는 방법을 배웠습니다. 더 중요하고 정확하게 C#을 사용하여 PDF 문서 내 이미지의 텍스트를 수정하는 방법에 대해 논의했습니다. 우리는 정규식을 사용하여 수정할 텍스트를 선택했지만 앞에서 설명한 것처럼 다양한 방법을 사용하여 선택할 수 있습니다. 나중에 검색된 텍스트 위에 검은색 직사각형 상자를 사용하여 검색 결과를 블랙아웃합니다.

API에 대한 자세한 내용은 문서를 참조하십시오. 문의 사항은 포럼을 통해 문의해 주세요.

또한보십시오