Раніше ми обговорювали, як ми можемо автоматизувати аналіз і програмно класифікувати всі документи. Часто потрібно класифікувати лише частину документа або лише кілька тверджень. У цій статті ми визначимо найкращі можливі таксономічні категорії вибраного тексту. Ми дізнаємося, як ми можемо класифікувати текст відповідно до IAB-2 і документувати таксономії за допомогою C#.
Нижче описано наступні теми:
- .NET API для таксономічної класифікації тексту
- Класифікація тексту з таксономією IAB-2 за допомогою C#
- Класифікація тексту з таксономією документів за допомогою C#
.NET API для таксономічної класифікації тексту
GroupDocs.Classification for .NET — це API, який дозволяє використовувати різні методи класифікації текстового вмісту в програмах .NET. Ми будемо використовувати цей API, щоб знайти найкращі можливі таксономічні категорії наданого тексту за допомогою C# у прикладах.
Ви можете завантажити DLL або інсталятор MSI із розділу завантажень або встановити API у своїй програмі .NET за допомогою NuGet.
PM> Install-Package GroupDocs.Classification
Класифікація тексту з таксономією IAB-2 за допомогою C#
IAB-2 класифікує вміст за певними таксономічними категоріями, а потім класифікує його на основі аналізу. Нижче наведено кроки для таксономічної класифікації тексту за допомогою таксономії IAB-2 за допомогою C#.
- Створіть екземпляр класифікатора за допомогою класу Classifier.
- Визначте текст для таксономічного аналізу.
- Встановіть Таксономію як IAB2.
- Встановіть кількість найкращих результатів у результаті класифікації. (необов’язково)
- Отримайте таксономічні категорії наданого тексту, викликавши метод Classify із визначеними параметрами.
- Надрукуйте BestResults із classification response методу Classify.
Наведений нижче вихідний код C# показує, як класифікувати текст за допомогою таксономії IAB-2 і отримати найвищі категорії з найкращим відповідністю.
/*
* Класифікуйте текст за допомогою таксономії IAB-2 за допомогою C#
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";
var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
Class: Healthy\_Living, Probability: 0.4144087
Class: Medical\_Health, Probability: 0.2108202
Class: Science, Probability: 0.1584931
Класифікація тексту з таксономією документів за допомогою C#
Таксономія документів класифікує вміст на різні класи документів, наприклад рекламні оголошення, рахунки-фактури, новини, резюме, листи, електронні листи тощо. Нижче наведено кроки для таксономічної класифікації тексту за допомогою таксономії документів за допомогою C#.
- Створіть екземпляр Класифікатора.
- Завантажте текст для таксономічного аналізу.
- Визначте кількість найкращих результатів у результаті класифікації. (необов’язково)
- Встановіть Таксономію як Документи.
- Отримайте таксономічні групи, викликавши метод Classify із зазначеними вище параметрами.
- Надрукуйте BestResults з classification response методу Classify.
Наведений нижче вихідний код C# показує, як класифікувати текстовий вміст і отримати деякі з його основних таксономічних категорій за допомогою таксономії документа.
/*
* Класифікуйте текст за допомогою таксономії документа за допомогою C#
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";
var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.9999645
Class: Report, Probability: 3.461805E-05
Отримайте безкоштовну ліцензію
Ви можете отримати безкоштовну тимчасову ліцензію, щоб використовувати API без оціночних обмежень.
Висновок
Підводячи підсумок, ми навчилися класифікувати різні види документів за допомогою різних таксономій. У прикладах ми класифікували текст відповідно до IAB-2, а таксономії документів — за допомогою C#. Ознайомившись із серією публікацій, ви зможете створити власну програму класифікації .NET для класифікації документів, а також тексту з різними таксономіями та конфігураціями.
Щоб дізнатися більше про API, відвідайте документацію. Якщо у вас виникли запитання, зв’яжіться з нами через форум.