نحتاج غالبًا إلى إخفاء المعلومات السرية والحساسة داخل المستندات. في مقالات أخرى ، ناقشنا الاستراتيجيات المختلفة للبحث عن الكلمات وحتى البحث عن المرادفات داخل مستندات متعددة. ترشدك هذه المقالة إلى كيفية تنقيح نصوص ونص PDF في الصور داخل مستند باستخدام C #.

سيتم تناول الموضوعات التالية أدناه:

.NET API لتحرير النصوص والصور

GroupDocs.Redaction يوفر Document redaction .NET API الذي يسمح بإخفاء وإزالة المعلومات السرية داخل المستندات ذات تنسيقات الملفات المختلفة. إلى جانب التنقيح البسيط للنص وتنقيطه ، تسمح API أيضًا بتحديد النص في الصور التي قد تكون داخل أي مستند مثل ملفات PDF الممسوحة ضوئيًا الأكثر استخدامًا. القائمة الكاملة تنسيقات الملفات المدعومة متوفرة في الوثائق.

يمكنك تنزيل مثبت DLL أو MSI من قسم التنزيلات أو تثبيت API في تطبيق .NET عبر NuGet.

التثبيت عبر وحدة تحكم مدير الحزمة

PM> Install-Package GroupDocs.Redaction

التثبيت عبر NuGet Package Manager

GroupDocs.Redaction - حزمة NuGet - تثبيت

تنقيح نص PDF ونص الصورة الممسوحة ضوئيًا باستخدام C

هناك العديد من طرق البحث عن النص واستبداله في المستندات التي تمت مناقشتها بالفعل. يمكنك العثور على كلمات محددة في أي مستند ، أو البحث عنها بحساسية حالة الأحرف ، أو باستخدام التعبيرات العادية. سأستخدم مستند PDF التالي ، الذي يحتوي على بعض النصوص وأيضًا صورة بها بعض النص. سنقوم هنا بدمج عملية التعرف الضوئي على الحروف والتنقيح باستخدام GroupDocs.Redaction لـ .NET. أولاً ، سوف نحدد النص الموجود في المستند وكذلك النص الموجود داخل صورة المستند. ثانيًا ، سنقوم بتغطيته بصندوق أسود لشرح كيفية إخفاء أي معلومات قانونية أو سرية برمجيًا حتى لو كانت كنص داخل صورة مستند ممسوحة ضوئيًا.

ملف PDF مع نص وصورة ممسوحة ضوئيًا

ستكتشف الخطوات التالية واستبدال النص في مستند PDF ، الذي يحتوي على نص عادي مع بعض النص داخل صورة مضمنة.

  • قم بإعداد إعدادات المحرر باستخدام أي موصل OCR.
  • قم بتحميل مستند PDF باستخدام فئة Redactor بالإعدادات المعدة وأي خيارات تحميل محددة.
  • حدد خيار الاستبدال. لقد حددت لحجب النص.
  • لتنقيح النص ، استخدم استراتيجية اختيار النص المناسبة. لقد استخدمت RegEx.
  • قم بتطبيق التنقيحات باستخدام طريقة تطبيق.
  • احفظ المستند المنقح باستخدام طريقة حفظ.

تنقح التعليمات البرمجية المصدر التالية النص المحدد داخل مستند PDF باستخدام C #.

// قم بتنقيح النص في PDF والنص في صورة مثل المستند الممسوح ضوئيًا باستخدام C #
var settings = new RedactorSettings(new AsposeOCRStandaloneConnector(@"LICENSE_PATH"));
using (var redactor = new Redactor(@"path/document.pdf", new LoadOptions(), settings))
{
    var marker = new ReplacementOptions(Color.Black);
    var redactions = new Redaction[] {
        new RegexRedaction(@"(?<=Dear\s+)([^,]+)", marker), // Card Holder Name
        new RegexRedaction(@"\d{2}/\d{2}", marker), // Valid Thru
        new RegexRedaction(@"\d{4}", marker)  // Card Number
    };
    var result = redactor.Apply(redactions);
    if (result.Status != RedactionStatus.Failed)
    {
        redactor.Save(new SaveOptions(false, "OnPremise"));
    }
}

ناتج الكود أعلاه هو على النحو التالي الذي يحجب النص المحدد من وثيقة PDF.

قم بتنقيح نص PDF ونص الصورة الممسوحة ضوئيًا

احصل على ترخيص API مجاني

يمكنك الحصول على ترخيص مؤقت مجاني لاستخدام واجهة برمجة التطبيقات بدون قيود التقييم.

استنتاج

باختصار ، لقد تعلمت تنقيح النص في المستندات. الأهم من ذلك وعلى وجه الدقة ، ناقشنا كيفية تنقيح النص في الصور داخل مستند PDF باستخدام C #. لقد اخترنا النص لتنقيحه باستخدام التعبيرات العادية ، ومع ذلك ، يمكن تحديده باستخدام العديد من الطرق المختلفة كما تمت مناقشته سابقًا. لاحقًا ، قمنا بحجب نتائج البحث باستخدام مربع مستطيل أسود فوق النص الذي تم البحث عنه.

لمزيد من التفاصيل للتعرف على API ، قم بزيارة التوثيق. للاستفسارات ، اتصل بنا عبر المنتدى.

أنظر أيضا