早些时候,我们讨论了如何以编程方式自动化分析和分类完整文档。通常只需要对文档的某些部分或少数语句进行分类。在本文中,我们将确定所选文本的最佳分类类别。我们将学习如何根据 IAB-2 对文本进行分类,并使用 C# 进行文档分类

以下主题涵盖以下内容:

用于文本分类的 .NET API

GroupDocs.Classification for .NET 是允许使用不同技术对 .NET 应用程序中的文本内容进行分类的 API。我们将使用此 API 在示例中使用 C# 查找所提供文本的最佳分类类别。

您可以从 下载部分 下载 DLLsMSI 安装程序,或通过 NuGet 在您的 .NET 应用程序中安装 API。

PM> Install-Package GroupDocs.Classification

使用 C# 使用 IAB-2 分类法进行文本分类

IAB-2 将内容分类为定义的分类类别,然后根据分析对其进行分类。以下是使用 C# 使用 IAB-2 taxonomy 对文本进行分类分类的步骤。

  • 使用 Classifier 类实例化分类器。
  • 定义分类分析的文本。
  • Taxonomy 设置为 IAB2
  • 设置分类结果的最佳结果数。 (选修的)
  • 通过使用定义的参数调用Classify 方法获取所提供文本的分类类别。
  • 打印 Classify 方法的 分类响应 中的 BestResults

以下 C# 源代码展示了如何使用 IAB-2 分类法 对文本进行分类,并获得最匹配的顶级类别。

/*
* 使用 C# 使用 IAB-2 分类法对文本进行分类
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";

var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: Healthy\_Living,      Probability: 0.4144087
 Class: Medical\_Health,     Probability: 0.2108202
 Class: Science,                 Probability: 0.1584931

使用 C# 使用文档分类法进行文本分类

文档分类法将内容分类为不同的文档类,例如广告、发票、新闻、简历、信件、电子邮件等。以下是使用 C# 使用文档分类法对文本进行分类分类的步骤。

以下 C# 源代码展示了如何使用 document taxonomy 对文本内容进行分类并获取其一些顶级分类类别。

/*
* 使用 C# 使用文档分类法对文本进行分类
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";

var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: ADVE,      Probability: 0.9999645
 Class: Report,     Probability: 3.461805E-05

获得免费许可证

您可以 获得免费的临时许可证 以便在没有评估限制的情况下使用 API。

结论

总而言之,我们学会了使用不同的分类法对各种文档进行分类。在示例中,我们根据 IAB-2 对文本进行分类,并使用 C# 对文档分类法进行分类。阅读完这一系列文章后,您可以构建自己的 .NET 分类应用程序来分类文档 以及具有不同分类和配置的文本。

有关 API 的更多信息,请访问 文档。如有疑问,请通过 论坛 联系我们。

也可以看看