التصنيف هو في الأساس نهج يتم فيه تحديد النص بشكل منهجي ومن ثم تنظيمه وفقًا للقواعد. يحدد التصنيف علم هذا التصنيف. عندما تتعامل مع مجموعة من المستندات النصية ، يصعب العثور على موضوع لأي مستند حتى التصنيف التصنيفي للمحتوى. في هذه المقالة ، ستتعلم كيفية تصنيف المستندات برمجيًا وفقًا لـ IAB-2 وتصنيف المستندات باستخدام C #.

يتم تناول الموضوعات التالية أدناه:

.NET API للتصنيف التصنيفي للوثائق

GroupDocs.Classification يوفر حل التصنيف لأنواع مختلفة من التطبيقات. يسمح لك .NET API الخاص به بتصنيف المستندات بتنسيقات ملفات مختلفة وفقًا لفئات تصنيفية مختلفة داخل تطبيقات .NET الخاصة بك. سنستخدم GroupDocs.Classification for .NET API لتصنيف مستندات PDF و Word باستخدام C #.

يمكنك تنزيل مثبت DLL أو MSI من قسم التنزيلات أو تثبيت API في تطبيق .NET عبر NuGet.

PM> Install-Package GroupDocs.Classification

تصنيف المستندات باستخدام تصنيف IAB-2 باستخدام C

يصنف IAB-2 محتوى المستند إلى [مواضيع] متعددة 9 ثم يصنفه بناءً على مستوى العمق. فيما يلي خطوات تحديد التصنيف التصنيفي للمستندات باستخدام IAB-2 التصنيف باستخدام C #.

  • مثيل المصنف باستخدام فئة مصنف.
  • حدد مستند الإدخال ومجلد الإدخال.
  • عرّف التصنيف على أنه IAB2.
  • عيِّن عدد النتائج الأولى القليلة الأفضل في الاستجابة. (اختياري)
  • احصل على الفئات التصنيفية عن طريق استدعاء طريقة Classify بالمعلمات المحددة.
  • اطبع اسم الفئة الأفضل و الاحتمالية باستخدام استجابة التصنيف لطريقة التصنيف.

يوضح الكود المصدري C # التالي كيفية تصنيف المستندات باستخدام تصنيف IAB-2 والحصول على بعض أفضل نتائج تصنيف المستندات.

/*
* تصنيف المستندات (PDF ، Word ، ...) باستخدام تصنيف IAB-2 باستخدام C #
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

تصنيف المستندات باستخدام تصنيف المستندات باستخدام C

يُستخدم تصنيف المستندات لتحديد مختلف فئات المستندات ، مثل الفواتير والسير الذاتية والنماذج ورسائل البريد الإلكتروني وما إلى ذلك. فيما يلي خطوات تحديد التصنيف التصنيفي للوثائق باستخدام تصنيف المستندات باستخدام C #.

  • إنشاء مثيل المصنف باستخدام فئة مصنف.
  • قم بتعيين مستند الإدخال والمجلد.
  • عرّف التصنيف كوثائق.
  • قم بتعيين عدد أفضل النتائج في الاستجابة. (اختياري)
  • احصل على المجموعات التصنيفية عن طريق استدعاء طريقة Classify باستخدام المعلمات المحددة أعلاه.
  • اطبع اسم الفئة الأفضل و الاحتمالية باستخدام استجابة التصنيف لطريقة التصنيف.

يوضح الكود المصدري C # التالي كيفية تصنيف المستندات والحصول على بعض من أفضل الفئات التصنيفية باستخدام تصنيف المستندات.

/*
* تصنيف المستندات (PDF ، Word ، ...) باستخدام تصنيف المستندات باستخدام C #
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

تصنيف المستندات المحمية بكلمة مرور باستخدام C

إذا كان المستند الخاص بك مؤمنًا بكلمة مرور ، فيمكنك فقط تقديم بيانات الاعتماد أثناء التصنيف. فيما يلي خطوات تصنيف المستندات المحمية بكلمة مرور باستخدام C #

يوضح مقتطف الشفرة التالي كيفية تصنيف المستندات المحمية بكلمة مرور والحصول على أفضل فئة تصنيفية باستخدام التصنيف الافتراضي (IAB-2).

/*
* تصنيف المستندات المحمية بكلمة مرور باستخدام C #
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

ستكون القيم الافتراضية للتصنيف هي IAB-2 وسيكون عدد أفضل النتائج 1.

احصل على رخصة مجانية

يمكنك الحصول على ترخيص مؤقت مجاني من أجل استخدام واجهة برمجة التطبيقات بدون قيود التقييم.

استنتاج

في الختام ، تعلمنا تصنيف أنواع مختلفة من المستندات باستخدام تصنيفات مختلفة. بتعبير أدق ، قمنا بتصنيف مستندات PDF وفقًا لـ IAB-2 وتصنيفات المستندات باستخدام C #. علاوة على ذلك ، ناقشنا كيف يمكننا تصنيف مستندات Word المحمية بكلمة مرور مع التصنيف التصنيفي الافتراضي أو المحدد. يمكنك الآن دمج ميزة تصنيف المستندات في تطبيق .NET الخاص بك.

لمزيد من المعلومات حول API ، قم بزيارة الوثائق. للاستفسارات ، اتصل بنا عبر المنتدى.

أنظر أيضا