طبقه بندی اساساً رویکردی است که در آن متن به طور سیستماتیک شناسایی و سپس بر اساس قوانین سازماندهی می شود. تاکسونومی علم چنین طبقه بندی را تعریف می کند. وقتی با یک دسته از اسناد متنی سر و کار دارید، یافتن موضوعی از هر سندی تا طبقه بندی طبقه بندی محتوا دشوار می شود. در این مقاله نحوه طبقهبندی برنامهنویسی اسناد بر اساس IAB-2 و طبقهبندی اسناد با استفاده از C# را خواهید آموخت.
موضوعات زیر در زیر پوشش داده شده است:
- NET API برای طبقه بندی طبقه بندی
- طبقه بندی اسناد با طبقه بندی IAB-2
- طبقه بندی اسناد با طبقه بندی اسناد
- طبقه بندی اسناد محافظت شده با رمز عبور
NET API برای طبقه بندی طبقه بندی اسناد
GroupDocs.Classification راه حل طبقه بندی را برای انواع مختلف برنامه ها ارائه می دهد. API .NET آن به شما امکان می دهد اسناد با فرمت های مختلف فایل را بر اساس دسته بندی های مختلف طبقه بندی در برنامه های .NET خود طبقه بندی کنید. ما از GroupDocs.Classification for .NET API آن برای طبقه بندی اسناد PDF و Word با استفاده از C# استفاده خواهیم کرد.
می توانید نصب کننده DLL یا MSI را از بخش دانلودها دانلود کنید یا از طریق NuGet API را در برنامه .NET خود نصب کنید.
PM> Install-Package GroupDocs.Classification
طبقه بندی اسناد با تاکسونومی IAB-2 با استفاده از C#
IAB-2 محتوای سند را به چندین موضوع دسته بندی می کند و سپس آن را بر اساس سطح عمق طبقه بندی می کند. مراحل زیر برای شناسایی طبقهبندی طبقهبندی اسناد با طبقهبندی IAB-2 با استفاده از C# است.
- طبقهبندیکننده را با استفاده از کلاس Classifier نمونهسازی کنید.
- سند ورودی و پوشه ورودی را تعریف کنید.
- Taxonomy را به عنوان IAB2 تعریف کنید.
- شمارش را برای چند نتیجه اول در پاسخ تنظیم کنید. (اختیاری)
- با فراخوانی روش Classify با پارامترهای تعریف شده، دسته بندی های طبقه بندی را دریافت کنید.
- Best Class Name و Probability را با استفاده از Classification Response از روش Classify چاپ کنید.
کد منبع C# زیر نحوه طبقهبندی اسناد با استفاده از طبقهبندی IAB-2 و دریافت برخی از بهترین نتایج طبقهبندی اسناد را نشان میدهد.
/*
* طبقه بندی اسناد (PDF، Word، ...) با طبقه بندی IAB-2 با استفاده از C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: Technology\_&Computing, Probability: 0.8188434
Class: Video\_Gaming, Probability: 0.12686
Class: Hobbies&\_Interests, Probability: 0.03112753
Class: Music\_and\_Audio, Probability: 0.006756512
طبقه بندی اسناد با طبقه بندی اسناد با استفاده از C#
طبقهبندی اسناد برای شناسایی [کلاسهای اسناد17 مختلف مانند فاکتورها، رزومهها، فرمها، ایمیلها و غیره استفاده میشود. مراحل زیر برای شناسایی طبقهبندی طبقهبندی اسناد با طبقهبندی اسناد با استفاده از C# است.
- طبقهبندیکننده را با استفاده از کلاس Classifier نمونهسازی کنید.
- سند و پوشه ورودی را تنظیم کنید.
- Taxonomy را به عنوان اسناد تعریف کنید.
- تعداد نتایج برتر در پاسخ را تنظیم کنید. (اختیاری)
- با فراخوانی روش Classify با پارامترهای تعریف شده در بالا، گروههای طبقهبندی را دریافت کنید.
- Best Class Name و Probability را با استفاده از Classification Response از روش Classify چاپ کنید.
کد منبع C# زیر نحوه طبقه بندی اسناد و دریافت برخی از بهترین دسته بندی های طبقه بندی را با استفاده از طبقه بندی اسناد نشان می دهد.
/*
* طبقه بندی اسناد (PDF، Word، ...) با تاکسونومی اسناد با استفاده از C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.3874436
Class: Resume, Probability: 0.2438204
Class: News, Probability: 0.1357582
Class: Memo, Probability: 0.0641943
طبقه بندی اسناد محافظت شده با رمز عبور با استفاده از C#
اگر سند شما با رمز عبور ایمن شده است، میتوانید در حین طبقهبندی، اعتبارنامه را ارائه دهید. مراحل زیر برای طبقه بندی اسناد محافظت شده با رمز عبور با استفاده از C# آمده است.
- Classifier را نمونهسازی کنید.
- سند ورودی، پوشه ورودی و رمز عبور سند محافظت شده را تعریف کنید.
- Taxonomy را به عنوان اسناد تعریف کنید.
- با فراخوانی روش Classify با پارامترهای تعریف شده، گروه طبقه بندی را دریافت کنید.
- Best Class Name و Probability را از response روش Classify دریافت کنید.
قطعه کد زیر نحوه طبقه بندی اسناد محافظت شده با رمز عبور و دریافت بهترین دسته بندی طبقه بندی با استفاده از طبقه بندی پیش فرض (IAB-2) را نشان می دهد.
/*
* طبقه بندی اسناد محافظت شده با رمز عبور با استفاده از C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests, Probability: 0.4548415
مقادیر پیش فرض برای طبقه بندی IAB-2 و تعداد بهترین نتایج 1 خواهد بود.
مجوز رایگان دریافت کنید
برای استفاده از API بدون محدودیت ارزیابی، می توانید یک مجوز موقت رایگان دریافت کنید.
نتیجه
برای نتیجه گیری، ما یاد گرفتیم که انواع مختلف اسناد را با استفاده از طبقه بندی های مختلف طبقه بندی کنیم. به طور دقیق تر، ما اسناد PDF را بر اساس IAB-2 و طبقه بندی اسناد با استفاده از C# طبقه بندی کردیم. علاوه بر این، در مورد اینکه چگونه میتوانیم اسناد Word محافظت شده با رمز عبور را با طبقهبندی طبقهبندی پیشفرض یا خاص طبقهبندی کنیم، بحث کردیم. اکنون می توانید ویژگی طبقه بندی اسناد را در برنامه .NET خود ادغام کنید.
برای اطلاعات بیشتر در مورد API، از مستندات دیدن کنید. برای سؤالات، از طریق [فروم 32 با ما تماس بگیرید.