Ранее мы обсуждали, как мы можем автоматизировать анализ и программно классифицировать полные документы. Часто требуется классифицировать только какую-то часть документа или только несколько утверждений. В этой статье мы определим наилучшие возможные таксономические категории выделенного текста. Мы узнаем, как мы можем классифицировать текст в соответствии с IAB-2 и документировать таксономии с помощью C#.
Ниже рассматриваются следующие темы:
- API .NET для таксономической классификации текста
- Текстовая классификация с таксономией IAB-2 с использованием C#
- Текстовая классификация с таксономией документов с использованием C#
.NET API для таксономической классификации текста
GroupDocs.Classification for .NET — это API, позволяющий использовать различные методы классификации текстового содержимого в приложениях .NET. Мы будем использовать этот API, чтобы найти наилучшие возможные таксономические категории предоставленного текста, используя C# в примерах.
Вы можете загрузить DLL или MSI установщик из раздела загрузок или установить API в свое приложение .NET через NuGet.
PM> Install-Package GroupDocs.Classification
Текстовая классификация с таксономией IAB-2 с использованием C#
IAB-2 классифицирует контент по определенным таксономическим категориям, а затем классифицирует его на основе анализа. Ниже приведены шаги для таксономической классификации текста с помощью таксономии IAB-2 с использованием C#.
- Создайте экземпляр классификатора, используя класс Classifier.
- Определить текст для таксономического анализа.
- Установите Таксономию как IAB2.
- Установите количество лучших результатов в результате классификации. (По желанию)
- Получите таксономические категории предоставленного текста, вызвав метод Classify с заданными параметрами.
- Распечатайте BestResults из ответа на классификацию метода Classify.
В следующем исходном коде C# показано, как классифицировать текст с помощью таксономии IAB-2 и получить лучшие категории с наилучшим соответствием.
/*
* Классифицировать текст с помощью таксономии IAB-2 с использованием C#
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";
var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
Class: Healthy\_Living, Probability: 0.4144087
Class: Medical\_Health, Probability: 0.2108202
Class: Science, Probability: 0.1584931
Классификация текста с таксономией документов с использованием C#
Таксономия документов классифицирует содержимое по различным классам документов, таким как рекламные объявления, счета-фактуры, новости, резюме, письма, электронные письма и т. д. Ниже приведены шаги для таксономической классификации текста с помощью таксономии документов с использованием C#.
- Создайте экземпляр Классификатор.
- Загрузите текст для таксономического анализа.
- Определить количество лучших результатов в результате классификации. (По желанию)
- Установите Таксономию как Документы.
- Получите таксономические группы, вызвав метод Classify с указанными выше параметрами.
- Распечатайте BestResults из ответа на классификацию метода Classify.
В следующем исходном коде C# показано, как классифицировать текстовое содержимое и получить некоторые из его основных таксономических категорий с помощью таксономии документов.
/*
* Классифицируйте текст с таксономией документов с помощью C#
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";
var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.9999645
Class: Report, Probability: 3.461805E-05
Получить бесплатную лицензию
Вы можете получить бесплатную временную лицензию, чтобы использовать API без ограничений пробной версии.
Вывод
Подводя итог, мы научились классифицировать различные виды документов, используя разные таксономии. В примерах мы классифицировали текст в соответствии с IAB-2, а таксономии документов использовали C#. Прочитав серию сообщений, вы сможете создать собственное классификационное приложение .NET для классификации документов, а также текста с различными таксономиями и конфигурациями.
Чтобы узнать больше об API, посетите документацию. По вопросам обращайтесь к нам через форум.