ต้องการรักษาความปลอดภัยของความลับหรือข้อมูลสำคัญที่อยู่ในเอกสารหรือไม่? สามารถทำได้แม้ว่าจะเป็นข้อมูลที่เป็นข้อความปกติหรือเป็นข้อความในเอกสารที่สแกนพร้อมรูปภาพ บทความก่อนหน้านี้อาจช่วยคุณปรับแต่งการค้นหาของคุณ ซึ่งเราได้กล่าวถึง กลยุทธ์ต่างๆ ในการค้นหาคำ และ คำพ้องความหมายสำหรับการค้นหาภายในเอกสารหลายฉบับ บทความนี้จะแนะนำคุณเกี่ยวกับวิธีแก้ไขข้อความ PDF และข้อความในรูปภาพภายในเอกสารโดยใช้ Java

หัวข้อต่อไปนี้จะครอบคลุมด้านล่าง:

Java API สำหรับการโต้ตอบข้อความและรูปภาพ

GroupDocs.Redaction ให้ โซลูชันการแก้ไขเพื่อรักษาความปลอดภัยข้อมูลลับ Java API ช่วยให้คุณสามารถแก้ไขหรือลบข้อมูลที่เป็นความลับภายในเอกสารในรูปแบบไฟล์ต่างๆ จากแอปพลิเคชันที่ใช้ Java ของคุณ นอกเหนือจากการแก้ไขข้อความและการแรสเตอร์อย่างง่ายแล้ว API ยังอนุญาตให้ระบุข้อความในรูปภาพที่อาจอยู่ในเอกสารใดๆ เช่น ไฟล์ PDF ที่สแกนที่ใช้กันทั่วไป รายการทั้งหมดของ รูปแบบไฟล์ที่รองรับ มีอยู่ในเอกสารประกอบ

ดาวน์โหลดหรือกำหนดค่า

คุณสามารถดาวน์โหลดไฟล์ JAR ได้จาก ส่วนการดาวน์โหลด หรือเพียงรับที่เก็บและการกำหนดค่าการพึ่งพาล่าสุดสำหรับ pom.xml ของแอปพลิเคชัน Java ที่ใช้ maven

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

แก้ไขข้อความ PDF และข้อความรูปภาพที่สแกนโดยใช้ Java

เราได้พูดถึง วิธีต่างๆ ในการค้นหาและแทนที่ข้อความในเอกสารแล้ว อย่างไรก็ตาม เรายังสามารถแก้ไขข้อความภายในรูปภาพได้อีกด้วย ฉันจะใช้เอกสาร PDF ต่อไปนี้ซึ่งมีข้อความบางส่วนและรูปภาพที่มีข้อความบางส่วน สำหรับสิ่งนี้ เราจำเป็นต้องรวม OCR เข้ากับกระบวนการแก้ไข ประการแรก เราจะระบุข้อความในเอกสารและข้อความที่อยู่ภายในรูปภาพของเอกสารด้วย จากนั้น เราจะปิดมันด้วยกล่องดำเพื่อซ่อนข้อมูลทางกฎหมาย ข้อมูลลับ หรือข้อมูลลับใดๆ โดยทางโปรแกรม แม้ว่าจะเป็นข้อความภายในภาพเอกสารที่สแกนก็ตาม

PDF พร้อมข้อความและภาพที่สแกน

ขั้นตอนต่อไปนี้จะตรวจหาและแทนที่ข้อความในเอกสาร PDF ซึ่งมีข้อความปกติหรือข้อความใดๆ ภายในภาพที่ฝังไว้

  • เตรียมการตั้งค่า redactor โดยใช้ OCR Connector
  • โหลดไฟล์ PDF ของคุณโดยใช้คลาส Redactor และถ้ามีตัวเลือกการโหลดเฉพาะที่จำเป็น
  • กำหนด replacement options ของคุณ ฉันเลือกที่จะปิดทับข้อความ
  • เตรียมการแก้ไข ใช้กลยุทธ์การตอบโต้ที่เหมาะสม เช่น การโต้ตอบแบบวลี หรือ การปกปิดแบบ RegEx
  • ใช้การแก้ไขโดยใช้เมธอด apply
  • บันทึกเอกสารที่แก้ไขโดยใช้เมธอด save

ซอร์สโค้ดต่อไปนี้จะแก้ไขข้อความที่เลือกภายในเอกสาร PDF โดยใช้ Java

// แก้ไขข้อความใน PDF และข้อความในรูปภาพ เช่น เอกสารที่สแกนโดยใช้ Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

ผลลัพธ์ของโค้ดด้านบนเป็นดังนี้พร้อมกับข้อความที่เลือกเป็นสีดำของเอกสาร PDF

แก้ไขข้อความ PDF และข้อความรูปภาพที่สแกน

รับใบอนุญาต API ฟรี

คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อใช้ API โดยไม่มีข้อจำกัดในการประเมิน

บทสรุป

โดยสรุป คุณได้เรียนรู้วิธีการแก้ไขข้อความในเอกสาร นอกจากนี้ เรายังพูดถึงวิธีแก้ไขข้อความในรูปภาพภายในเอกสาร PDF โดยใช้ Java ในทำนองเดียวกัน คุณสามารถแก้ไขข้อความและรูปภาพด้วยเอกสารในรูปแบบอื่นๆ เราใช้การตอบโต้ด้วยนิพจน์ทั่วไป อย่างไรก็ตาม สามารถทำได้ด้วยวิธีต่างๆ มากมาย ต่อมาเราซ่อนผลการค้นหาโดยใช้กล่องดำ

หากต้องการทราบรายละเอียดเพิ่มเติมเกี่ยวกับ API โปรดไปที่ เอกสารประกอบ สำหรับข้อสงสัย ติดต่อเราผ่านทาง ฟอรัม

ดูสิ่งนี้ด้วย