Классификация — это в основном подход, при котором текст систематически идентифицируется, а затем организуется в соответствии с правилами. Таксономия определяет науку о такой классификации. Когда вы имеете дело с кучей текстовых документов, становится трудно найти тему любого документа до таксономической классификации содержания. В этой статье вы узнаете, как программно классифицировать документы в соответствии с IAB-2 и систематизировать документы с помощью C#.

Ниже рассматриваются следующие темы:

.NET API для таксономической классификации документов

GroupDocs.Classification предоставляет решение для классификации различных типов приложений. Его .NET API позволяет классифицировать документы различных форматов файлов в соответствии с различными таксономическими категориями в ваших приложениях .NET. Мы будем использовать его GroupDocs.Classification for .NET API для классификации документов PDF и Word с помощью C#.

Вы можете загрузить DLL или MSI установщик из раздела загрузок или установить API в свое приложение .NET через NuGet.

PM> Install-Package GroupDocs.Classification

Классифицируйте документы с помощью таксономии IAB-2 с помощью C#

IAB-2 классифицирует содержимое документа по нескольким темам, а затем классифицирует его на основе уровня глубины. Ниже приведены шаги для определения таксономической классификации документов с помощью таксономии IAB-2 с использованием C#.

  • Создайте экземпляр классификатора, используя класс Classifier.
  • Определите входной документ и входную папку.
  • Определите Таксономию как IAB2.
  • Установите количество первых нескольких лучших результатов в ответе. (По желанию)
  • Получить таксономические категории, вызвав метод Classify с заданными параметрами.
  • Распечатайте Имя лучшего класса и Вероятность, используя ответ классификации метода Classify.

В следующем исходном коде C# показано, как классифицировать документы с помощью таксономии IAB-2 и получить одни из лучших результатов классификации документов.

/*
* Классифицировать документы (PDF, Word, ...) с помощью таксономии IAB-2 с использованием C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Классифицируйте документы с таксономией документов с помощью C#

Таксономия документов используется для идентификации различных классов документов, таких как счета-фактуры, резюме, формы, электронные письма и т. д. Ниже приведены шаги для определения таксономической классификации документов с помощью таксономии документов с использованием C#.

  • Создайте экземпляр классификатора, используя класс Classifier.
  • Установите входной документ и папку.
  • Определите Таксономию как Документы.
  • Установите количество лучших результатов в ответе. (По желанию)
  • Получите таксономические группы, вызвав метод Classify с указанными выше параметрами.
  • Распечатайте Имя лучшего класса и Вероятность, используя ответ классификации метода Classify.

В следующем исходном коде C# показано, как классифицировать документы и получить некоторые из лучших таксономических категорий с помощью таксономии документов.

/*
* Классифицировать документы (PDF, Word, ...) с помощью таксономии документов с помощью C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Классифицируйте защищенные паролем документы с помощью C#

Если ваш документ защищен паролем, вы можете просто предоставить учетные данные при классификации. Ниже приведены шаги для классификации защищенных паролем документов с использованием C#.

В следующем фрагменте кода показано, как классифицировать защищенные паролем документы и получить наилучшую таксономическую категорию, используя таксономию по умолчанию (IAB-2).

/*
* Классифицировать защищенные паролем документы с помощью C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

Значения по умолчанию для таксономии будут IAB-2, а количество лучших результатов будет равно 1.

Получить бесплатную лицензию

Вы можете получить бесплатную временную лицензию, чтобы использовать API без ограничений пробной версии.

Вывод

В заключение мы научились классифицировать различные виды документов, используя разные таксономии. Точнее, мы классифицировали PDF-документы в соответствии с IAB-2 и таксономиями документов с помощью C#. Далее мы обсудили, как мы можем классифицировать защищенные паролем документы Word с классификацией по умолчанию или специальной таксономической классификацией. Теперь вы можете интегрировать функцию классификации документов в свое приложение .NET.

Чтобы узнать больше об API, посетите документацию. По вопросам обращайтесь к нам через форум.

Смотрите также