Класифікація — це в основному підхід, за якого текст систематично ідентифікується, а потім упорядковується відповідно до правил. Таксономія визначає науку такої класифікації. Коли ви маєте справу з купою текстових документів, стає важко знайти тему будь-якого документа до таксономічної класифікації вмісту. У цій статті ви дізнаєтеся, як програмно класифікувати документи відповідно до IAB-2 і таксономію документів за допомогою C#.
Нижче описано наступні теми:
- .NET API для таксономічної класифікації
- Класифікація документів за таксономією IAB-2
- Класифікуйте документи за допомогою таксономії документів
- Класифікуйте документи, захищені паролем
.NET API для таксономічної класифікації документів
GroupDocs.Classification надає рішення для класифікації для різних видів програм. Його .NET API дозволяє класифікувати документи різних форматів файлів відповідно до різних таксономічних категорій у ваших програмах .NET. Ми будемо використовувати GroupDocs.Classification for .NET API для класифікації документів PDF і Word за допомогою C#.
Ви можете завантажити DLL або інсталятор MSI із розділу завантажень або встановити API у своїй програмі .NET за допомогою NuGet.
PM> Install-Package GroupDocs.Classification
Класифікуйте документи за допомогою таксономії IAB-2 за допомогою C#
IAB-2 класифікує вміст документа на кілька тем, а потім класифікує його на основі рівня глибини. Нижче наведено кроки для визначення таксономічної класифікації документів за допомогою таксономії IAB-2 за допомогою C#.
- Створіть екземпляр класифікатора за допомогою класу Classifier.
- Визначте вхідний документ і вхідну папку.
- Визначте Таксономію як IAB2.
- Встановіть кількість перших кількох найкращих результатів у відповіді. (необов’язково)
- Отримайте таксономічні категорії, викликавши метод Classify із визначеними параметрами.
- Надрукуйте Назва найкращого класу і Імовірність, використовуючи відповідь класифікації методу Classify.
У наступному вихідному коді C# показано, як класифікувати документи за допомогою таксономії IAB-2 і отримати деякі з найкращих результатів класифікації документів.
/*
* Класифікуйте документи (PDF, Word, ...) за допомогою таксономії IAB-2 за допомогою C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: Technology\_&Computing, Probability: 0.8188434
Class: Video\_Gaming, Probability: 0.12686
Class: Hobbies&\_Interests, Probability: 0.03112753
Class: Music\_and\_Audio, Probability: 0.006756512
Класифікуйте документи за допомогою таксономії документів за допомогою C#
Таксономія документів використовується для ідентифікації різних класів документів, таких як рахунки-фактури, резюме, форми, електронні листи тощо. Нижче наведено кроки для визначення таксономічної класифікації документів за допомогою таксономії документів за допомогою C#.
- Створіть екземпляр класифікатора за допомогою класу Classifier.
- Встановіть вхідний документ і папку.
- Визначте таксономію як документи.
- Встановіть кількість найкращих результатів у відповіді. (необов’язково)
- Отримайте таксономічні групи, викликавши метод Classify із зазначеними вище параметрами.
- Надрукуйте Назва найкращого класу і Імовірність, використовуючи відповідь класифікації методу Classify.
Наступний вихідний код C# показує, як класифікувати документи та отримати деякі з найкращих таксономічних категорій за допомогою таксономії документів.
/*
* Класифікуйте документи (PDF, Word, ...) за допомогою таксономії документів за допомогою C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.3874436
Class: Resume, Probability: 0.2438204
Class: News, Probability: 0.1357582
Class: Memo, Probability: 0.0641943
Класифікуйте захищені паролем документи за допомогою C#
Якщо ваш документ захищено паролем, ви можете просто вказати облікові дані під час класифікації. Нижче наведено кроки для класифікації захищених паролем документів за допомогою C#
- Створіть екземпляр Класифікатора.
- Визначте вхідний документ, вхідну папку та пароль захищеного документа.
- Визначте Таксономію як Документи.
- Отримайте таксономічну групу, викликавши метод Classify із визначеними параметрами.
- Отримайте Найкраще ім’я класу та Імовірність із відповіді методу Classify.
У наведеному нижче фрагменті коду показано, як класифікувати захищені паролем документи та отримати найкращу таксономічну категорію за допомогою стандартної таксономії (IAB-2).
/*
* Класифікуйте захищені паролем документи за допомогою C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests, Probability: 0.4548415
Значення за замовчуванням для таксономії будуть IAB-2, а кількість найкращих результатів буде 1.
Отримайте безкоштовну ліцензію
Ви можете отримати безкоштовну тимчасову ліцензію, щоб використовувати API без оціночних обмежень.
Висновок
Підсумовуючи, ми навчилися класифікувати різні види документів, використовуючи різні таксономії. Точніше, ми класифікували PDF-документи відповідно до IAB-2 і класифікували документи за допомогою C#. Крім того, ми обговорили, як ми можемо класифікувати захищені паролем документи Word за умовчанням або спеціальною таксономічною класифікацією. Тепер ви можете інтегрувати функцію класифікації документів у свою програму .NET.
Щоб дізнатися більше про API, відвідайте документацію. Якщо у вас виникли запитання, зв’яжіться з нами через форум.