Раніше ми обговорювали, як ми можемо автоматизувати аналіз і програмно класифікувати всі документи. Часто потрібно класифікувати лише частину документа або лише кілька тверджень. У цій статті ми визначимо найкращі можливі таксономічні категорії вибраного тексту. Ми дізнаємося, як ми можемо класифікувати текст відповідно до IAB-2 і документувати таксономії за допомогою C#.

Нижче описано наступні теми:

.NET API для таксономічної класифікації тексту

GroupDocs.Classification for .NET — це API, який дозволяє використовувати різні методи класифікації текстового вмісту в програмах .NET. Ми будемо використовувати цей API, щоб знайти найкращі можливі таксономічні категорії наданого тексту за допомогою C# у прикладах.

Ви можете завантажити DLL або інсталятор MSI із розділу завантажень або встановити API у своїй програмі .NET за допомогою NuGet.

PM> Install-Package GroupDocs.Classification

Класифікація тексту з таксономією IAB-2 за допомогою C#

IAB-2 класифікує вміст за певними таксономічними категоріями, а потім класифікує його на основі аналізу. Нижче наведено кроки для таксономічної класифікації тексту за допомогою таксономії IAB-2 за допомогою C#.

  • Створіть екземпляр класифікатора за допомогою класу Classifier.
  • Визначте текст для таксономічного аналізу.
  • Встановіть Таксономію як IAB2.
  • Встановіть кількість найкращих результатів у результаті класифікації. (необов’язково)
  • Отримайте таксономічні категорії наданого тексту, викликавши метод Classify із визначеними параметрами.
  • Надрукуйте BestResults із classification response методу Classify.

Наведений нижче вихідний код C# показує, як класифікувати текст за допомогою таксономії IAB-2 і отримати найвищі категорії з найкращим відповідністю.

/*
* Класифікуйте текст за допомогою таксономії IAB-2 за допомогою C#
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";

var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: Healthy\_Living,      Probability: 0.4144087
 Class: Medical\_Health,     Probability: 0.2108202
 Class: Science,                 Probability: 0.1584931

Класифікація тексту з таксономією документів за допомогою C#

Таксономія документів класифікує вміст на різні класи документів, наприклад рекламні оголошення, рахунки-фактури, новини, резюме, листи, електронні листи тощо. Нижче наведено кроки для таксономічної класифікації тексту за допомогою таксономії документів за допомогою C#.

  • Створіть екземпляр Класифікатора.
  • Завантажте текст для таксономічного аналізу.
  • Визначте кількість найкращих результатів у результаті класифікації. (необов’язково)
  • Встановіть Таксономію як Документи.
  • Отримайте таксономічні групи, викликавши метод Classify із зазначеними вище параметрами.
  • Надрукуйте BestResults з classification response методу Classify.

Наведений нижче вихідний код C# показує, як класифікувати текстовий вміст і отримати деякі з його основних таксономічних категорій за допомогою таксономії документа.

/*
* Класифікуйте текст за допомогою таксономії документа за допомогою C#
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";

var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: ADVE,      Probability: 0.9999645
 Class: Report,     Probability: 3.461805E-05

Отримайте безкоштовну ліцензію

Ви можете отримати безкоштовну тимчасову ліцензію, щоб використовувати API без оціночних обмежень.

Висновок

Підводячи підсумок, ми навчилися класифікувати різні види документів за допомогою різних таксономій. У прикладах ми класифікували текст відповідно до IAB-2, а таксономії документів — за допомогою C#. Ознайомившись із серією публікацій, ви зможете створити власну програму класифікації .NET для класифікації документів, а також тексту з різними таксономіями та конфігураціями.

Щоб дізнатися більше про API, відвідайте документацію. Якщо у вас виникли запитання, зв’яжіться з нами через форум.

Дивись також