Классификация — это в основном подход, при котором текст систематически идентифицируется, а затем организуется в соответствии с правилами. Таксономия определяет науку о такой классификации. Когда вы имеете дело с кучей текстовых документов, становится трудно найти тему любого документа до таксономической классификации содержания. В этой статье вы узнаете, как программно классифицировать документы в соответствии с IAB-2 и систематизировать документы с помощью C#.
Ниже рассматриваются следующие темы:
- .NET API для таксономической классификации
- Классификация документов с таксономией IAB-2
- Классифицировать документы с помощью таксономии документов
- Классификация документов, защищенных паролем
.NET API для таксономической классификации документов
GroupDocs.Classification предоставляет решение для классификации различных типов приложений. Его .NET API позволяет классифицировать документы различных форматов файлов в соответствии с различными таксономическими категориями в ваших приложениях .NET. Мы будем использовать его GroupDocs.Classification for .NET API для классификации документов PDF и Word с помощью C#.
Вы можете загрузить DLL или MSI установщик из раздела загрузок или установить API в свое приложение .NET через NuGet.
PM> Install-Package GroupDocs.Classification
Классифицируйте документы с помощью таксономии IAB-2 с помощью C#
IAB-2 классифицирует содержимое документа по нескольким темам, а затем классифицирует его на основе уровня глубины. Ниже приведены шаги для определения таксономической классификации документов с помощью таксономии IAB-2 с использованием C#.
- Создайте экземпляр классификатора, используя класс Classifier.
- Определите входной документ и входную папку.
- Определите Таксономию как IAB2.
- Установите количество первых нескольких лучших результатов в ответе. (По желанию)
- Получить таксономические категории, вызвав метод Classify с заданными параметрами.
- Распечатайте Имя лучшего класса и Вероятность, используя ответ классификации метода Classify.
В следующем исходном коде C# показано, как классифицировать документы с помощью таксономии IAB-2 и получить одни из лучших результатов классификации документов.
/*
* Классифицировать документы (PDF, Word, ...) с помощью таксономии IAB-2 с использованием C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: Technology\_&Computing, Probability: 0.8188434
Class: Video\_Gaming, Probability: 0.12686
Class: Hobbies&\_Interests, Probability: 0.03112753
Class: Music\_and\_Audio, Probability: 0.006756512
Классифицируйте документы с таксономией документов с помощью C#
Таксономия документов используется для идентификации различных классов документов, таких как счета-фактуры, резюме, формы, электронные письма и т. д. Ниже приведены шаги для определения таксономической классификации документов с помощью таксономии документов с использованием C#.
- Создайте экземпляр классификатора, используя класс Classifier.
- Установите входной документ и папку.
- Определите Таксономию как Документы.
- Установите количество лучших результатов в ответе. (По желанию)
- Получите таксономические группы, вызвав метод Classify с указанными выше параметрами.
- Распечатайте Имя лучшего класса и Вероятность, используя ответ классификации метода Classify.
В следующем исходном коде C# показано, как классифицировать документы и получить некоторые из лучших таксономических категорий с помощью таксономии документов.
/*
* Классифицировать документы (PDF, Word, ...) с помощью таксономии документов с помощью C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.3874436
Class: Resume, Probability: 0.2438204
Class: News, Probability: 0.1357582
Class: Memo, Probability: 0.0641943
Классифицируйте защищенные паролем документы с помощью C#
Если ваш документ защищен паролем, вы можете просто предоставить учетные данные при классификации. Ниже приведены шаги для классификации защищенных паролем документов с использованием C#.
- Создайте экземпляр Классификатор.
- Определите входной документ, входную папку и пароль защищенного документа.
- Определите Таксономию как Документы.
- Получить таксономическую группу, вызвав метод Classify с заданными параметрами.
- Получите Имя лучшего класса и Вероятность из ответа метода Classify.
В следующем фрагменте кода показано, как классифицировать защищенные паролем документы и получить наилучшую таксономическую категорию, используя таксономию по умолчанию (IAB-2).
/*
* Классифицировать защищенные паролем документы с помощью C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests, Probability: 0.4548415
Значения по умолчанию для таксономии будут IAB-2, а количество лучших результатов будет равно 1.
Получить бесплатную лицензию
Вы можете получить бесплатную временную лицензию, чтобы использовать API без ограничений пробной версии.
Вывод
В заключение мы научились классифицировать различные виды документов, используя разные таксономии. Точнее, мы классифицировали PDF-документы в соответствии с IAB-2 и таксономиями документов с помощью C#. Далее мы обсудили, как мы можем классифицировать защищенные паролем документы Word с классификацией по умолчанию или специальной таксономической классификацией. Теперь вы можете интегрировать функцию классификации документов в свое приложение .NET.
Чтобы узнать больше об API, посетите документацию. По вопросам обращайтесь к нам через форум.