Класифікація — це в основному підхід, за якого текст систематично ідентифікується, а потім упорядковується відповідно до правил. Таксономія визначає науку такої класифікації. Коли ви маєте справу з купою текстових документів, стає важко знайти тему будь-якого документа до таксономічної класифікації вмісту. У цій статті ви дізнаєтеся, як програмно класифікувати документи відповідно до IAB-2 і таксономію документів за допомогою C#.

Нижче описано наступні теми:

.NET API для таксономічної класифікації документів

GroupDocs.Classification надає рішення для класифікації для різних видів програм. Його .NET API дозволяє класифікувати документи різних форматів файлів відповідно до різних таксономічних категорій у ваших програмах .NET. Ми будемо використовувати GroupDocs.Classification for .NET API для класифікації документів PDF і Word за допомогою C#.

Ви можете завантажити DLL або інсталятор MSI із розділу завантажень або встановити API у своїй програмі .NET за допомогою NuGet.

PM> Install-Package GroupDocs.Classification

Класифікуйте документи за допомогою таксономії IAB-2 за допомогою C#

IAB-2 класифікує вміст документа на кілька тем, а потім класифікує його на основі рівня глибини. Нижче наведено кроки для визначення таксономічної класифікації документів за допомогою таксономії IAB-2 за допомогою C#.

  • Створіть екземпляр класифікатора за допомогою класу Classifier.
  • Визначте вхідний документ і вхідну папку.
  • Визначте Таксономію як IAB2.
  • Встановіть кількість перших кількох найкращих результатів у відповіді. (необов’язково)
  • Отримайте таксономічні категорії, викликавши метод Classify із визначеними параметрами.
  • Надрукуйте Назва найкращого класу і Імовірність, використовуючи відповідь класифікації методу Classify.

У наступному вихідному коді C# показано, як класифікувати документи за допомогою таксономії IAB-2 і отримати деякі з найкращих результатів класифікації документів.

/*
* Класифікуйте документи (PDF, Word, ...) за допомогою таксономії IAB-2 за допомогою C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Класифікуйте документи за допомогою таксономії документів за допомогою C#

Таксономія документів використовується для ідентифікації різних класів документів, таких як рахунки-фактури, резюме, форми, електронні листи тощо. Нижче наведено кроки для визначення таксономічної класифікації документів за допомогою таксономії документів за допомогою C#.

Наступний вихідний код C# показує, як класифікувати документи та отримати деякі з найкращих таксономічних категорій за допомогою таксономії документів.

/*
* Класифікуйте документи (PDF, Word, ...) за допомогою таксономії документів за допомогою C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Класифікуйте захищені паролем документи за допомогою C#

Якщо ваш документ захищено паролем, ви можете просто вказати облікові дані під час класифікації. Нижче наведено кроки для класифікації захищених паролем документів за допомогою C#

У наведеному нижче фрагменті коду показано, як класифікувати захищені паролем документи та отримати найкращу таксономічну категорію за допомогою стандартної таксономії (IAB-2).

/*
* Класифікуйте захищені паролем документи за допомогою C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

Значення за замовчуванням для таксономії будуть IAB-2, а кількість найкращих результатів буде 1.

Отримайте безкоштовну ліцензію

Ви можете отримати безкоштовну тимчасову ліцензію, щоб використовувати API без оціночних обмежень.

Висновок

Підсумовуючи, ми навчилися класифікувати різні види документів, використовуючи різні таксономії. Точніше, ми класифікували PDF-документи відповідно до IAB-2 і класифікували документи за допомогою C#. Крім того, ми обговорили, як ми можемо класифікувати захищені паролем документи Word за умовчанням або спеціальною таксономічною класифікацією. Тепер ви можете інтегрувати функцію класифікації документів у свою програму .NET.

Щоб дізнатися більше про API, відвідайте документацію. Якщо у вас виникли запитання, зв’яжіться з нами через форум.

Дивись також