طبقه بندی اساساً رویکردی است که در آن متن به طور سیستماتیک شناسایی و سپس بر اساس قوانین سازماندهی می شود. تاکسونومی علم چنین طبقه بندی را تعریف می کند. وقتی با یک دسته از اسناد متنی سر و کار دارید، یافتن موضوعی از هر سندی تا طبقه بندی طبقه بندی محتوا دشوار می شود. در این مقاله نحوه طبقه‌بندی برنامه‌نویسی اسناد بر اساس IAB-2 و طبقه‌بندی اسناد با استفاده از C# را خواهید آموخت.

موضوعات زیر در زیر پوشش داده شده است:

NET API برای طبقه بندی طبقه بندی اسناد

GroupDocs.Classification راه حل طبقه بندی را برای انواع مختلف برنامه ها ارائه می دهد. API .NET آن به شما امکان می دهد اسناد با فرمت های مختلف فایل را بر اساس دسته بندی های مختلف طبقه بندی در برنامه های .NET خود طبقه بندی کنید. ما از GroupDocs.Classification for .NET API آن برای طبقه بندی اسناد PDF و Word با استفاده از C# استفاده خواهیم کرد.

می توانید نصب کننده DLL یا MSI را از بخش دانلودها دانلود کنید یا از طریق NuGet API را در برنامه .NET خود نصب کنید.

PM> Install-Package GroupDocs.Classification

طبقه بندی اسناد با تاکسونومی IAB-2 با استفاده از C#

IAB-2 محتوای سند را به چندین موضوع دسته بندی می کند و سپس آن را بر اساس سطح عمق طبقه بندی می کند. مراحل زیر برای شناسایی طبقه‌بندی طبقه‌بندی اسناد با طبقه‌بندی IAB-2 با استفاده از C# است.

  • طبقه‌بندی‌کننده را با استفاده از کلاس Classifier نمونه‌سازی کنید.
  • سند ورودی و پوشه ورودی را تعریف کنید.
  • Taxonomy را به عنوان IAB2 تعریف کنید.
  • شمارش را برای چند نتیجه اول در پاسخ تنظیم کنید. (اختیاری)
  • با فراخوانی روش Classify با پارامترهای تعریف شده، دسته بندی های طبقه بندی را دریافت کنید.
  • Best Class Name و Probability را با استفاده از Classification Response از روش Classify چاپ کنید.

کد منبع C# زیر نحوه طبقه‌بندی اسناد با استفاده از طبقه‌بندی IAB-2 و دریافت برخی از بهترین نتایج طبقه‌بندی اسناد را نشان می‌دهد.

/*
* طبقه بندی اسناد (PDF، Word، ...) با طبقه بندی IAB-2 با استفاده از C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

طبقه بندی اسناد با طبقه بندی اسناد با استفاده از C#

طبقه‌بندی اسناد برای شناسایی [کلاس‌های اسناد17 مختلف مانند فاکتورها، رزومه‌ها، فرم‌ها، ایمیل‌ها و غیره استفاده می‌شود. مراحل زیر برای شناسایی طبقه‌بندی طبقه‌بندی اسناد با طبقه‌بندی اسناد با استفاده از C# است.

  • طبقه‌بندی‌کننده را با استفاده از کلاس Classifier نمونه‌سازی کنید.
  • سند و پوشه ورودی را تنظیم کنید.
  • Taxonomy را به عنوان اسناد تعریف کنید.
  • تعداد نتایج برتر در پاسخ را تنظیم کنید. (اختیاری)
  • با فراخوانی روش Classify با پارامترهای تعریف شده در بالا، گروه‌های طبقه‌بندی را دریافت کنید.
  • Best Class Name و Probability را با استفاده از Classification Response از روش Classify چاپ کنید.

کد منبع C# زیر نحوه طبقه بندی اسناد و دریافت برخی از بهترین دسته بندی های طبقه بندی را با استفاده از طبقه بندی اسناد نشان می دهد.

/*
* طبقه بندی اسناد (PDF، Word، ...) با تاکسونومی اسناد با استفاده از C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

طبقه بندی اسناد محافظت شده با رمز عبور با استفاده از C#

اگر سند شما با رمز عبور ایمن شده است، می‌توانید در حین طبقه‌بندی، اعتبارنامه را ارائه دهید. مراحل زیر برای طبقه بندی اسناد محافظت شده با رمز عبور با استفاده از C# آمده است.

  • Classifier را نمونه‌سازی کنید.
  • سند ورودی، پوشه ورودی و رمز عبور سند محافظت شده را تعریف کنید.
  • Taxonomy را به عنوان اسناد تعریف کنید.
  • با فراخوانی روش Classify با پارامترهای تعریف شده، گروه طبقه بندی را دریافت کنید.
  • Best Class Name و Probability را از response روش Classify دریافت کنید.

قطعه کد زیر نحوه طبقه بندی اسناد محافظت شده با رمز عبور و دریافت بهترین دسته بندی طبقه بندی با استفاده از طبقه بندی پیش فرض (IAB-2) را نشان می دهد.

/*
* طبقه بندی اسناد محافظت شده با رمز عبور با استفاده از C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

مقادیر پیش فرض برای طبقه بندی IAB-2 و تعداد بهترین نتایج 1 خواهد بود.

مجوز رایگان دریافت کنید

برای استفاده از API بدون محدودیت ارزیابی، می توانید یک مجوز موقت رایگان دریافت کنید.

نتیجه

برای نتیجه گیری، ما یاد گرفتیم که انواع مختلف اسناد را با استفاده از طبقه بندی های مختلف طبقه بندی کنیم. به طور دقیق تر، ما اسناد PDF را بر اساس IAB-2 و طبقه بندی اسناد با استفاده از C# طبقه بندی کردیم. علاوه بر این، در مورد اینکه چگونه می‌توانیم اسناد Word محافظت شده با رمز عبور را با طبقه‌بندی طبقه‌بندی پیش‌فرض یا خاص طبقه‌بندی کنیم، بحث کردیم. اکنون می توانید ویژگی طبقه بندی اسناد را در برنامه .NET خود ادغام کنید.

برای اطلاعات بیشتر در مورد API، از مستندات دیدن کنید. برای سؤالات، از طریق [فروم 32 با ما تماس بگیرید.

همچنین ببینید