เรามักจะต้องซ่อนข้อมูลที่เป็นความลับและละเอียดอ่อนไว้ในเอกสาร ในบทความอื่นๆ เราได้พูดถึง กลยุทธ์ต่างๆ ในการค้นหาคำ และแม้แต่ คำพ้องความหมายในการค้นหาภายในเอกสารหลายฉบับ บทความนี้จะแนะนำคุณเกี่ยวกับวิธีแก้ไขข้อความ PDF และข้อความในรูปภาพภายในเอกสารโดยใช้ C#

หัวข้อต่อไปนี้จะครอบคลุมด้านล่าง:

.NET API สำหรับการแสดงข้อความและรูปภาพ

GroupDocs.Redaction มี document redaction .NET API ที่อนุญาตให้ซ่อนและลบข้อมูลที่เป็นความลับภายในเอกสารในรูปแบบไฟล์ต่างๆ นอกเหนือจากการแก้ไขข้อความและการแรสเตอร์อย่างง่ายแล้ว API ยังอนุญาตให้ระบุข้อความในรูปภาพที่อาจอยู่ในเอกสารใดๆ เช่น ไฟล์ PDF ที่สแกนที่ใช้กันทั่วไป รายการทั้งหมดของ รูปแบบไฟล์ที่รองรับ มีอยู่ในเอกสารประกอบ

คุณสามารถดาวน์โหลดโปรแกรมติดตั้ง DLLs หรือ MSI ได้จาก ส่วนการดาวน์โหลด หรือติดตั้ง API ในแอปพลิเคชัน .NET ของคุณผ่านทาง NuGet

ติดตั้งผ่าน Package Manager Console

PM> Install-Package GroupDocs.Redaction

ติดตั้งผ่าน NuGet Package Manager

GroupDocs.Redaction - แพ็คเกจ NuGet - ติดตั้ง

แก้ไขข้อความ PDF และข้อความรูปภาพที่สแกนโดยใช้ C#

มี วิธีค้นหาและแทนที่ข้อความในเอกสาร มากมายที่กล่าวถึงไปแล้ว คุณสามารถค้นหาคำเฉพาะในเอกสารใดๆ ค้นหาด้วยตัวพิมพ์เล็กหรือใหญ่ หรือโดยใช้นิพจน์ทั่วไป ฉันจะใช้เอกสาร PDF ต่อไปนี้ซึ่งมีข้อความบางส่วนและรูปภาพที่มีข้อความอยู่ด้วย ที่นี่เราจะรวม OCR และกระบวนการแก้ไขโดยใช้ GroupDocs.Redaction for .NET ประการแรก เราจะระบุข้อความในเอกสารและข้อความที่อยู่ภายในรูปภาพของเอกสารด้วย ประการที่สอง เราจะคลุมด้วยกล่องดำเพื่อสาธิตวิธีการซ่อนข้อมูลทางกฎหมายหรือความลับทางโปรแกรมใดๆ แม้ว่าจะเป็นข้อความภายในภาพเอกสารที่สแกนก็ตาม

PDF พร้อมข้อความและภาพที่สแกน

ขั้นตอนต่อไปนี้จะตรวจหาและแทนที่ข้อความในเอกสาร PDF ซึ่งมีข้อความปกติพร้อมกับข้อความบางส่วนภายในภาพที่ฝังไว้

  • เตรียมการตั้งค่า redactor โดยใช้ OCR Connector
  • โหลดเอกสาร PDF โดยใช้คลาส Redactor พร้อมการตั้งค่าที่เตรียมไว้และตัวเลือกการโหลดเฉพาะใดๆ
  • กำหนด ตัวเลือกการแทนที่ ฉันได้กำหนดให้ปิดทับข้อความ
  • สำหรับการแสดงข้อความ ให้ใช้กลยุทธ์การเลือกข้อความที่เหมาะสม ฉันใช้ RegEx
  • ใช้การแก้ไขโดยใช้เมธอด Apply
  • บันทึกเอกสารที่แก้ไขโดยใช้วิธี บันทึก

ซอร์สโค้ดต่อไปนี้จะแก้ไขข้อความที่เลือกภายในเอกสาร PDF โดยใช้ C#

// แก้ไขข้อความใน PDF และข้อความในรูปภาพ เช่น เอกสารที่สแกนโดยใช้ C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

ผลลัพธ์ของโค้ดด้านบนเป็นดังนี้ซึ่งจะทำให้ข้อความที่เลือกของเอกสาร PDF เป็นสีดำ

แก้ไขข้อความ PDF และข้อความรูปภาพที่สแกน

รับใบอนุญาต API ฟรี

คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อใช้ API โดยไม่มีข้อจำกัดในการประเมิน

บทสรุป

โดยสรุป คุณได้เรียนรู้ที่จะแก้ไขข้อความในเอกสาร ที่สำคัญและแม่นยำกว่านั้น เราได้พูดถึงวิธีแก้ไขข้อความในรูปภาพภายในเอกสาร PDF โดยใช้ C# เราเลือกข้อความเพื่อแก้ไขโดยใช้นิพจน์ทั่วไป อย่างไรก็ตาม สามารถเลือกได้หลายวิธีตามที่กล่าวไว้ก่อนหน้านี้ ในภายหลัง เราจะปิดผลการค้นหาโดยใช้กล่องสี่เหลี่ยมผืนผ้าสีดำเหนือข้อความที่ค้นหา

หากต้องการทราบรายละเอียดเพิ่มเติมเกี่ยวกับ API โปรดไปที่ เอกสารประกอบ สำหรับข้อสงสัย ติดต่อเราผ่านทาง ฟอรัม

ดูสิ่งนี้ด้วย