לעתים קרובות אנו צריכים להסתיר את המידע הסודי והרגיש בתוך המסמכים. במאמרים אחרים, דנו באסטרטגיות שונות לחיפוש מילים ואפילו חפש מילים נרדפות בתוך מספר מסמכים. מאמר זה מנחה אותך כיצד לבטל טקסט וטקסט PDF בתמונות בתוך מסמך באמצעות C#.

הנושאים הבאים יכוסו להלן:

NET API עבור עיבוד טקסט ותמונה

GroupDocs.Redaction מספק את document redaction .NET API המאפשר הסתרה והסרה של מידע סודי בתוך מסמכים בפורמטים שונים של קבצים. יחד עם עריכת הטקסט והרסטר הפשוטה, ה-API מאפשר גם לזהות את הטקסט בתמונות שאולי היו בתוך כל מסמך כמו קבצי PDF סרוקים הנפוצים ביותר. הרשימה המלאה של פורמטי קבצים נתמכים זמינה בתיעוד.

אתה יכול להוריד את קובצי ה-DLL או את תוכנית ההתקנה של MSI מ סעיף ההורדות או להתקין את ה-API באפליקציית NET שלך דרך NuGet.

התקן דרך מסוף מנהל החבילות

PM> Install-Package GroupDocs.Redaction

התקן דרך NuGet Package Manager

GroupDocs.Redaction - חבילת NuGet - התקנה

צור טקסט PDF וטקסט תמונה סרוק באמצעות C#

ישנן דרכים שונות למצוא ולהחליף טקסט במסמכים שכבר נדונו. אתה יכול למצוא מילים ספציפיות בכל מסמך, למצוא עם רגישות רישיות, או באמצעות ביטויים רגולריים. אני אשתמש במסמך PDF הבא, שמכיל קצת טקסט וגם תמונה עם קצת טקסט. כאן נשלב את תהליך ה-OCR והעיבוד באמצעות GroupDocs.Redaction עבור .NET. ראשית, נזהה את הטקסט במסמך וגם את הטקסט שנמצא בתוך תמונת המסמך. שנית, נכסה אותו בקופסה שחורה כדי להדגים כיצד להסתיר באופן תוכנתי כל מידע חוקי או סודי גם אם הוא כטקסט בתוך תמונת מסמך סרוקה.

PDF עם טקסט ותמונה סרוקה

השלבים הבאים יאתרו ויחליפו את הטקסט במסמך PDF, המכיל טקסט רגיל יחד עם טקסט כלשהו בתוך תמונה מוטבעת.

  • הכן את הגדרות העורך באמצעות כל מחבר OCR.
  • טען את מסמך ה-PDF באמצעות מחלקה Redactor עם ההגדרות המוכנות וכל אפשרויות טעינה ספציפיות.
  • הגדר את אפשרות ההחלפה. הגדרתי להשחיר את הטקסט.
  • עבור עריכת הטקסט, השתמש באסטרטגיית בחירת הטקסט המתאימה. השתמשתי ב-RegEx.
  • החל את העריכות בשיטת Apply.
  • שמור את המסמך שנערך בשיטת שמור.

קוד המקור הבא עורך את הטקסט שנבחר בתוך מסמך PDF באמצעות C#.

// צור טקסט ב-PDF וטקסט בתמונה כמו מסמך סרוק באמצעות C#
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

הפלט של הקוד שלמעלה הוא כדלקמן שמחשיך את הטקסט הנבחר של מסמך ה-PDF.

עריכת טקסט PDF וטקסט תמונה סרוקה

קבל רישיון API בחינם

אתה יכול לקבל רישיון זמני בחינם לשימוש ב-API ללא מגבלות ההערכה.

סיכום

לסיכום, למדת לעצב טקסט במסמכים. יותר חשוב ומדויק, דנו כיצד לבטל טקסט בתמונות בתוך מסמך PDF באמצעות C#. בחרנו את הטקסט לעיבוד באמצעות ביטויים רגולריים, עם זאת, ניתן לבחור אותו בדרכים רבות ושונות כפי שנדון קודם לכן. מאוחר יותר אנו מחסלים את תוצאות החיפוש באמצעות תיבת מלבן שחורה מעל הטקסט המבוקש.

לפרטים נוספים כדי ללמוד על ה-API, בקר בתיעוד. לשאלות, צור איתנו קשר דרך הפורום.

ראה גם