分类基本上是一种方法,其中系统地识别文本,然后根据规则进行组织。分类学定义了这种分类的科学。当您处理一堆文本文档时,在对内容进行分类之前,很难找到任何文档的主题。在本文中,您将学习如何根据 IAB-2 以编程方式对文档进行分类,并使用 C# 进行文档分类。
以下主题涵盖以下内容:
用于文档分类的 .NET API
GroupDocs.Classification 为不同类型的应用程序提供分类解决方案。它的 .NET API 允许您根据 .NET 应用程序中的不同分类类别对各种文件格式的文档进行分类。我们将使用其 GroupDocs.Classification for .NET API 使用 C# 对 PDF 和 Word 文档进行分类。
您可以从 下载部分 下载 DLLs 或 MSI 安装程序,或通过 NuGet 在您的 .NET 应用程序中安装 API。
PM> Install-Package GroupDocs.Classification
使用 C# 使用 IAB-2 分类法对文档进行分类
IAB-2 将文档的内容分类为多个 主题,然后根据深度级别对其进行分类。以下是使用 C# 使用 IAB-2 taxonomy 识别文档分类的步骤。
- 使用 Classifier 类实例化分类器。
- 定义输入文件和输入文件夹。
- 将 Taxonomy 定义为 IAB2。
- 设置响应中前几个最佳结果的计数。 (选修的)
- 使用定义的参数调用Classify 方法获取分类类别。
- 使用 Classify 方法的 classification response 打印 Best Class Name 和 Probability。
以下 C# 源代码展示了如何使用 IAB-2 分类法 对文档进行分类并获得一些顶级文档分类结果。
/*
* 使用 C# 使用 IAB-2 分类法对文档(PDF、Word、...) 进行分类
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: Technology\_&Computing, Probability: 0.8188434
Class: Video\_Gaming, Probability: 0.12686
Class: Hobbies&\_Interests, Probability: 0.03112753
Class: Music\_and\_Audio, Probability: 0.006756512
使用 C# 使用文档分类法对文档进行分类
文档分类法用于识别不同的文档类,例如发票、简历、表单、电子邮件等。以下是使用 C# 使用文档分类法识别文档分类的步骤。
- 使用 Classifier 类实例化分类器。
- 设置输入文件和文件夹。
- 将 Taxonomy 定义为 Documents。
- 设置响应中排名靠前的结果数的计数。 (选修的)
- 使用上述定义的参数调用Classify 方法获取分类群。
- 使用 Classify 方法的 classification response 打印 Best Class Name 和 Probability。
以下 C# 源代码展示了如何使用 document taxonomy 对文档进行分类并获得一些最佳分类类别。
/*
* 使用 C# 使用 Document Taxonomy 对文档(PDF、Word、...) 进行分类
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.3874436
Class: Resume, Probability: 0.2438204
Class: News, Probability: 0.1357582
Class: Memo, Probability: 0.0641943
使用 C# 对受密码保护的文档进行分类
如果您的文档使用密码保护,您可以在分类时提供凭据。以下是使用C#对受密码保护的文档进行分类的步骤
- 实例化分类器。
- 定义受保护文档的输入文档、输入文件夹和密码。
- 将 Taxonomy 定义为 Documents。
- 使用定义的参数调用Classify 方法获取分类群。
- 从Classify方法的response中获取Best Class Name和Probability。
以下代码片段显示了如何使用默认分类法 (IAB-2) 对受密码保护的文档进行分类并获得最佳分类法类别。
/*
* 使用 C# 对受密码保护的文档进行分类
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests, Probability: 0.4548415
分类的默认值为 IAB-2,最佳结果的计数为 1.
获得免费许可证
您可以 获得免费的临时许可证 以便在没有评估限制的情况下使用 API。
结论
总而言之,我们学会了使用不同的分类法对各种文档进行分类。更准确地说,我们根据 IAB-2 对 PDF 文档进行分类,并使用 C# 对文档分类。此外,我们还讨论了如何使用默认或特定分类法对受密码保护的 Word 文档进行分类。现在您可以将文档分类功能集成到您的 .NET 应用程序中。
有关 API 的更多信息,请访问 文档。如有疑问,请通过 论坛 联系我们。