Ранее мы обсуждали, как мы можем автоматизировать анализ и программно классифицировать полные документы. Часто требуется классифицировать только какую-то часть документа или только несколько утверждений. В этой статье мы определим наилучшие возможные таксономические категории выделенного текста. Мы узнаем, как мы можем классифицировать текст в соответствии с IAB-2 и документировать таксономии с помощью C#.

Ниже рассматриваются следующие темы:

.NET API для таксономической классификации текста

GroupDocs.Classification for .NET — это API, позволяющий использовать различные методы классификации текстового содержимого в приложениях .NET. Мы будем использовать этот API, чтобы найти наилучшие возможные таксономические категории предоставленного текста, используя C# в примерах.

Вы можете загрузить DLL или MSI установщик из раздела загрузок или установить API в свое приложение .NET через NuGet.

PM> Install-Package GroupDocs.Classification

Текстовая классификация с таксономией IAB-2 с использованием C#

IAB-2 классифицирует контент по определенным таксономическим категориям, а затем классифицирует его на основе анализа. Ниже приведены шаги для таксономической классификации текста с помощью таксономии IAB-2 с использованием C#.

  • Создайте экземпляр классификатора, используя класс Classifier.
  • Определить текст для таксономического анализа.
  • Установите Таксономию как IAB2.
  • Установите количество лучших результатов в результате классификации. (По желанию)
  • Получите таксономические категории предоставленного текста, вызвав метод Classify с заданными параметрами.
  • Распечатайте BestResults из ответа на классификацию метода Classify.

В следующем исходном коде C# показано, как классифицировать текст с помощью таксономии IAB-2 и получить лучшие категории с наилучшим соответствием.

/*
* Классифицировать текст с помощью таксономии IAB-2 с использованием C#
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";

var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: Healthy\_Living,      Probability: 0.4144087
 Class: Medical\_Health,     Probability: 0.2108202
 Class: Science,                 Probability: 0.1584931

Классификация текста с таксономией документов с использованием C#

Таксономия документов классифицирует содержимое по различным классам документов, таким как рекламные объявления, счета-фактуры, новости, резюме, письма, электронные письма и т. д. Ниже приведены шаги для таксономической классификации текста с помощью таксономии документов с использованием C#.

  • Создайте экземпляр Классификатор.
  • Загрузите текст для таксономического анализа.
  • Определить количество лучших результатов в результате классификации. (По желанию)
  • Установите Таксономию как Документы.
  • Получите таксономические группы, вызвав метод Classify с указанными выше параметрами.
  • Распечатайте BestResults из ответа на классификацию метода Classify.

В следующем исходном коде C# показано, как классифицировать текстовое содержимое и получить некоторые из его основных таксономических категорий с помощью таксономии документов.

/*
* Классифицируйте текст с таксономией документов с помощью C#
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";

var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: ADVE,      Probability: 0.9999645
 Class: Report,     Probability: 3.461805E-05

Получить бесплатную лицензию

Вы можете получить бесплатную временную лицензию, чтобы использовать API без ограничений пробной версии.

Вывод

Подводя итог, мы научились классифицировать различные виды документов, используя разные таксономии. В примерах мы классифицировали текст в соответствии с IAB-2, а таксономии документов использовали C#. Прочитав серию сообщений, вы сможете создать собственное классификационное приложение .NET для классификации документов, а также текста с различными таксономиями и конфигурациями.

Чтобы узнать больше об API, посетите документацию. По вопросам обращайтесь к нам через форум.

Смотрите также