هل تريد تأمين المعلومات السرية أو الحساسة الموجودة في المستندات؟ يمكن القيام بذلك حتى لو كانت هذه معلومات نصية عادية أو كانت نصًا مع المستند الممسوح ضوئيًا مع الصور. قد تساعدك المقالات السابقة في تحسين البحث ، حيث ناقشنا الإستراتيجيات المختلفة للبحث عن الكلمات و البحث عن المرادفات داخل مستندات متعددة. ترشدك هذه المقالة إلى كيفية تنقيح نصوص ونص PDF في الصور داخل مستند باستخدام Java.

سيتم تناول الموضوعات التالية أدناه:

واجهة برمجة تطبيقات جافا لتنقيح النصوص والصور

يوفر GroupDocs.Redaction حل التنقيح لتأمين المعلومات السرية. تسمح لك Java API الخاصة به بتنقيح أو إزالة المعلومات السرية داخل مستندات تنسيقات ملفات مختلفة من تطبيقاتك المستندة إلى Java. إلى جانب التنقيح البسيط للنص وتنقيطه ، تسمح API أيضًا بتحديد النص في الصور التي قد تكون داخل أي مستند مثل ملفات PDF الممسوحة ضوئيًا الأكثر استخدامًا. القائمة الكاملة تنسيقات الملفات المدعومة متوفرة في الوثائق.

تنزيل أو تكوين

يمكنك تنزيل ملف JAR من قسم التنزيلات ، أو الحصول على أحدث تكوينات المستودعات والتبعية لملف pox.xml لتطبيقات Java المستندة إلى المخضرم.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

قم بتنقيح نص PDF ونص الصورة الممسوحة ضوئيًا باستخدام Java

لقد ناقشنا بالفعل مختلف طرق البحث عن النص واستبداله في المستندات. ومع ذلك ، يمكننا أيضًا تنقيح النص داخل الصور. سأستخدم مستند PDF التالي ، الذي يحتوي على بعض النصوص وأيضًا صورة مع بعض النص. لهذا ، نحتاج إلى دمج OCR مع عملية التنقيح. أولاً ، سوف نحدد النص الموجود في المستند وكذلك النص الموجود داخل صورة المستند. بعد ذلك ، سنقوم بتغطيته بصندوق أسود لإخفاء أي معلومات قانونية أو سرية أو سرية برمجيًا حتى لو كانت كنص داخل صورة مستند ممسوحة ضوئيًا.

ملف PDF مع نص وصورة ممسوحة ضوئيًا

ستكتشف الخطوات التالية واستبدال النص في مستندات PDF التي تحتوي على نص عادي أو أي نص داخل الصور المضمنة.

  • قم بإعداد إعدادات المحرر باستخدام أي موصل OCR.
  • قم بتحميل ملف PDF الخاص بك باستخدام فئة Redactor وأيضًا إذا كانت هناك أي خيارات تحميل محددة مطلوبة.
  • حدد خيارات الاستبدال. أنا أختار حجب النص.
  • تحضير التنقيحات. استخدم استراتيجية التنقيح المناسبة مثل Phrase Redaction أو RegEx redaction.
  • قم بتطبيق التنقيحات باستخدام طريقة تطبيق.
  • احفظ المستند المنقح باستخدام طريقة حفظ.

تنقح التعليمات البرمجية المصدر التالية النص المحدد في مستند PDF باستخدام Java.

// قم بتنقيح النص في PDF والنص في الصورة مثل المستند الممسوح ضوئيًا باستخدام Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

ناتج الكود أعلاه هو كما يلي مع النص المحدد الغامق لمستند PDF.

قم بتنقيح نص PDF ونص الصورة الممسوحة ضوئيًا

احصل على ترخيص API مجاني

يمكنك الحصول على ترخيص مؤقت مجاني لاستخدام واجهة برمجة التطبيقات بدون قيود التقييم.

استنتاج

في الختام ، لقد تعلمت كيفية تنقيح النص في المستندات. بالإضافة إلى ذلك ، ناقشنا كيفية تنقيح النص في الصور داخل مستند PDF باستخدام Java. وبالمثل ، يمكنك تنقيح النص والصور باستخدام مستندات من أي تنسيق آخر. استخدمنا تنقيح التعبيرات النمطية ، ومع ذلك ، يمكن أيضًا القيام بذلك باستخدام العديد من الطرق المختلفة. لاحقًا أخفنا نتائج البحث باستخدام صندوق أسود.

لمزيد من التفاصيل للتعرف على API ، قم بزيارة الوثائق. للاستفسارات ، اتصل بنا عبر المنتدى.

أنظر أيضا