早些时候,我们讨论了如何以编程方式自动化分析和分类完整文档。通常只需要对文档的某些部分或少数语句进行分类。在本文中,我们将确定所选文本的最佳分类类别。我们将学习如何根据 IAB-2 对文本进行分类,并使用 C# 进行文档分类。
以下主题涵盖以下内容:
用于文本分类的 .NET API
GroupDocs.Classification for .NET 是允许使用不同技术对 .NET 应用程序中的文本内容进行分类的 API。我们将使用此 API 在示例中使用 C# 查找所提供文本的最佳分类类别。
您可以从 下载部分 下载 DLLs 或 MSI 安装程序,或通过 NuGet 在您的 .NET 应用程序中安装 API。
PM> Install-Package GroupDocs.Classification
使用 C# 使用 IAB-2 分类法进行文本分类
IAB-2 将内容分类为定义的分类类别,然后根据分析对其进行分类。以下是使用 C# 使用 IAB-2 taxonomy 对文本进行分类分类的步骤。
- 使用 Classifier 类实例化分类器。
- 定义分类分析的文本。
- 将 Taxonomy 设置为 IAB2。
- 设置分类结果的最佳结果数。 (选修的)
- 通过使用定义的参数调用Classify 方法获取所提供文本的分类类别。
- 打印 Classify 方法的 分类响应 中的 BestResults。
以下 C# 源代码展示了如何使用 IAB-2 分类法 对文本进行分类,并获得最匹配的顶级类别。
/*
* 使用 C# 使用 IAB-2 分类法对文本进行分类
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";
var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
Class: Healthy\_Living, Probability: 0.4144087
Class: Medical\_Health, Probability: 0.2108202
Class: Science, Probability: 0.1584931
使用 C# 使用文档分类法进行文本分类
文档分类法将内容分类为不同的文档类,例如广告、发票、新闻、简历、信件、电子邮件等。以下是使用 C# 使用文档分类法对文本进行分类分类的步骤。
- 实例化分类器。
- 加载文本进行分类分析。
- 定义作为分类结果的最佳结果计数。 (选修的)
- 将 Taxonomy 设置为 Documents。
- 使用上述定义的参数调用Classify 方法获取分类群。
- 打印 Classify 方法的 classification response 中的 BestResults。
以下 C# 源代码展示了如何使用 document taxonomy 对文本内容进行分类并获取其一些顶级分类类别。
/*
* 使用 C# 使用文档分类法对文本进行分类
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";
var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.9999645
Class: Report, Probability: 3.461805E-05
获得免费许可证
您可以 获得免费的临时许可证 以便在没有评估限制的情况下使用 API。
结论
总而言之,我们学会了使用不同的分类法对各种文档进行分类。在示例中,我们根据 IAB-2 对文本进行分类,并使用 C# 对文档分类法进行分类。阅读完这一系列文章后,您可以构建自己的 .NET 分类应用程序来分类文档 以及具有不同分类和配置的文本。
有关 API 的更多信息,请访问 文档。如有疑问,请通过 论坛 联系我们。