Bạn muốn bảo mật thông tin bí mật hoặc nhạy cảm có trong tài liệu? Có thể thực hiện được ngay cả khi đây là thông tin văn bản thông thường hoặc đó là văn bản với tài liệu được quét có hình ảnh. Các bài viết trước có thể giúp bạn tinh chỉnh tìm kiếm của mình, trong đó chúng tôi đã thảo luận về các chiến lược khác nhau để tìm kiếm từtìm kiếm từ đồng nghĩa trong nhiều tài liệu. Bài viết này hướng dẫn bạn cách sắp xếp lại văn bản PDF và văn bản trong hình ảnh trong tài liệu bằng Java.

Các chủ đề sau đây sẽ được đề cập dưới đây:

API Java để soạn thảo văn bản và hình ảnh

GroupDocs.Redaction cung cấp giải pháp biên tập để bảo mật thông tin mật. API Java của nó cho phép bạn biên tập lại hoặc xóa thông tin bí mật trong các tài liệu có định dạng tệp khác nhau khỏi các ứng dụng dựa trên Java của bạn. Cùng với việc biên tập và tạo điểm ảnh văn bản đơn giản, API cũng cho phép xác định văn bản trong hình ảnh có thể nằm trong bất kỳ tài liệu nào giống như các tệp PDF được quét phổ biến nhất. Danh sách đầy đủ về các định dạng tệp được hỗ trợ có sẵn trong tài liệu.

Tải xuống hoặc định cấu hình

Bạn có thể tải xuống tệp JAR từ phần tải xuống hoặc chỉ nhận cấu hình phụ thuộc và kho lưu trữ mới nhất cho pom.xml của các ứng dụng Java dựa trên maven của bạn.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

Soạn thảo văn bản PDF và văn bản hình ảnh được quét bằng Java

Chúng tôi đã thảo luận về các cách khác nhau để tìm và thay thế văn bản trong tài liệu. Tuy nhiên, chúng ta cũng có thể sắp xếp lại văn bản trong hình ảnh. Tôi sẽ sử dụng tài liệu PDF sau, có chứa một số văn bản và cả hình ảnh có một số văn bản. Đối với điều này, chúng ta cần kết hợp OCR với quy trình biên tập. Đầu tiên, chúng tôi sẽ xác định văn bản trong tài liệu và cả văn bản bên trong hình ảnh của tài liệu. Sau đó, chúng tôi sẽ che nó bằng một hộp đen để ẩn bất kỳ thông tin hợp pháp, bảo mật hoặc bí mật nào theo chương trình ngay cả khi ở dạng văn bản trong hình ảnh tài liệu được quét.

PDF với văn bản và hình ảnh được quét

Các bước sau đây sẽ phát hiện và thay thế văn bản trong tài liệu PDF có chứa văn bản thông thường hoặc bất kỳ văn bản nào trong hình ảnh được nhúng.

  • Chuẩn bị cài đặt trình biên tập lại bằng cách sử dụng bất kỳ Trình kết nối OCR nào.
  • Tải tệp PDF của bạn bằng lớp Redactor và nếu có bất kỳ tùy chọn tải cụ thể nào được yêu cầu.
  • Xác định các tùy chọn thay thế của bạn. Tôi đang chọn bôi đen văn bản.
  • Chuẩn bị các giao dịch; sử dụng chiến lược biên tập phù hợp như Phrase Redaction hoặc RegEx redaction.
  • Áp dụng các giao dịch bằng cách sử dụng phương pháp áp dụng.
  • Lưu tài liệu đã biên tập lại bằng phương pháp save.

Mã nguồn sau đây sắp xếp lại văn bản đã chọn trong tài liệu PDF bằng Java.

// Làm lại văn bản trong PDF và văn bản trong hình ảnh như tài liệu được quét bằng Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

Đầu ra của đoạn mã trên như sau với văn bản đã chọn được bôi đen của tài liệu PDF.

Sắp xếp lại văn bản PDF và văn bản hình ảnh được quét

Nhận giấy phép API miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để sử dụng API mà không bị giới hạn đánh giá.

Sự kết luận

Để kết luận, bạn đã học cách sắp xếp lại văn bản trong tài liệu. Ngoài ra, chúng tôi đã thảo luận cách sắp xếp lại văn bản trong hình ảnh trong tài liệu PDF bằng Java. Tương tự, bạn có thể sắp xếp lại văn bản và hình ảnh với các tài liệu ở bất kỳ định dạng nào khác. Chúng tôi đã sử dụng cách viết lại biểu thức chính quy, tuy nhiên, nó cũng có thể được thực hiện bằng nhiều cách khác nhau. Sau đó, chúng tôi ẩn kết quả tìm kiếm bằng hộp đen.

Để biết thêm chi tiết về API, hãy truy cập tài liệu. Nếu có thắc mắc, hãy liên hệ với chúng tôi qua diễn đàn.

Xem thêm