Chúng ta thường cần ẩn thông tin bí mật và nhạy cảm trong tài liệu. Trong các bài viết khác, chúng tôi đã thảo luận về các chiến lược khác nhau để tìm kiếm từ và thậm chí tìm kiếm từ đồng nghĩa trong nhiều tài liệu. Bài viết này hướng dẫn bạn cách sắp xếp lại văn bản PDF và văn bản trong hình ảnh trong tài liệu bằng C#.

Các chủ đề sau đây sẽ được đề cập dưới đây:

.NET API để biên tập văn bản và hình ảnh

GroupDocs.Redaction cung cấp API soạn thảo tài liệu .NET cho phép ẩn và xóa thông tin bí mật trong tài liệu ở nhiều định dạng tệp khác nhau. Cùng với việc biên tập và tạo điểm ảnh văn bản đơn giản, API cũng cho phép xác định văn bản trong hình ảnh có thể nằm trong bất kỳ tài liệu nào giống như các tệp PDF được quét phổ biến nhất. Danh sách đầy đủ về các định dạng tệp được hỗ trợ có sẵn trong tài liệu.

Bạn có thể tải xuống trình cài đặt DLL hoặc MSI từ phần tải xuống hoặc cài đặt API trong ứng dụng .NET của bạn qua NuGet.

Cài đặt qua Bảng điều khiển quản lý gói

PM> Install-Package GroupDocs.Redaction

Cài đặt qua Trình quản lý gói NuGet

GroupDocs.Redaction - Gói NuGet - Cài đặt

Soạn thảo văn bản PDF và văn bản hình ảnh được quét bằng C#

Có nhiều cách tìm và thay thế văn bản trong tài liệu khác nhau đã được thảo luận. Bạn có thể tìm các từ cụ thể trong bất kỳ tài liệu nào, tìm theo phân biệt chữ hoa chữ thường hoặc bằng cách sử dụng các biểu thức thông thường. Tôi sẽ sử dụng tài liệu PDF sau, có chứa một số văn bản và cả hình ảnh có một số văn bản trong đó. Ở đây chúng ta sẽ kết hợp OCR và quy trình biên tập bằng cách sử dụng GroupDocs.Redaction for .NET. Đầu tiên, chúng tôi sẽ xác định văn bản trong tài liệu và cả văn bản bên trong hình ảnh của tài liệu. Thứ hai, chúng tôi sẽ che nó bằng một hộp đen để trình bày cách lập trình ẩn bất kỳ thông tin pháp lý hoặc bí mật nào ngay cả khi ở dạng văn bản trong hình ảnh tài liệu được quét.

PDF với văn bản và hình ảnh được quét

Các bước sau đây sẽ phát hiện và thay thế văn bản trong tài liệu PDF chứa văn bản thông thường cùng với một số văn bản trong hình ảnh được nhúng.

  • Chuẩn bị cài đặt trình biên dịch bằng cách sử dụng bất kỳ Trình kết nối OCR nào.
  • Tải tài liệu PDF bằng lớp Redactor với cài đặt đã chuẩn bị sẵn và bất kỳ tùy chọn tải cụ thể nào.
  • Xác định tùy chọn thay thế. Tôi đã xác định để bôi đen văn bản.
  • Đối với việc biên tập văn bản, hãy sử dụng chiến lược lựa chọn văn bản phù hợp. Tôi đã sử dụng RegEx.
  • Áp dụng các giao dịch bằng phương pháp Áp dụng.
  • Lưu tài liệu đã biên tập lại bằng phương pháp Save.

Mã nguồn sau đây sắp xếp lại văn bản đã chọn trong tài liệu PDF bằng C#.

// Làm lại văn bản trong PDF và văn bản trong hình ảnh như tài liệu được quét bằng C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

Đầu ra của đoạn mã trên như sau bôi đen văn bản đã chọn của tài liệu PDF.

Sắp xếp lại văn bản PDF và văn bản hình ảnh được quét

Nhận giấy phép API miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để sử dụng API mà không bị giới hạn đánh giá.

Sự kết luận

Tóm lại, bạn đã học cách sắp xếp lại văn bản trong tài liệu. Quan trọng và chính xác hơn, chúng ta đã thảo luận về cách sắp xếp lại văn bản trong hình ảnh trong tài liệu PDF bằng C#. Chúng tôi đã chọn văn bản để sắp xếp lại bằng cách sử dụng các biểu thức chính quy, tuy nhiên, nó có thể được chọn bằng nhiều cách khác nhau như đã thảo luận trước đó. Sau đó, chúng tôi bôi đen kết quả tìm kiếm bằng cách sử dụng hộp hình chữ nhật màu đen trên văn bản được tìm kiếm.

Để biết thêm chi tiết về API, hãy truy cập tài liệu. Nếu có thắc mắc, hãy liên hệ với chúng tôi qua diễn đàn.

Xem thêm