分类基本上是一种方法,其中系统地识别文本,然后根据规则进行组织。分类学定义了这种分类的科学。当您处理一堆文本文档时,在对内容进行分类之前,很难找到任何文档的主题。在本文中,您将学习如何根据 IAB-2 以编程方式对文档进行分类,并使用 C# 进行文档分类。

以下主题涵盖以下内容:

用于文档分类的 .NET API

GroupDocs.Classification 为不同类型的应用程序提供分类解决方案。它的 .NET API 允许您根据 .NET 应用程序中的不同分类类别对各种文件格式的文档进行分类。我们将使用其 GroupDocs.Classification for .NET API 使用 C# 对 PDF 和 Word 文档进行分类。

您可以从 下载部分 下载 DLLsMSI 安装程序,或通过 NuGet 在您的 .NET 应用程序中安装 API。

PM> Install-Package GroupDocs.Classification

使用 C# 使用 IAB-2 分类法对文档进行分类

IAB-2 将文档的内容分类为多个 主题,然后根据深度级别对其进行分类。以下是使用 C# 使用 IAB-2 taxonomy 识别文档分类的步骤。

以下 C# 源代码展示了如何使用 IAB-2 分类法 对文档进行分类并获得一些顶级文档分类结果。

/*
* 使用 C# 使用 IAB-2 分类法对文档(PDF、Word、...) 进行分类
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

使用 C# 使用文档分类法对文档进行分类

文档分类法用于识别不同的文档类,例如发票、简历、表单、电子邮件等。以下是使用 C# 使用文档分类法识别文档分类的步骤。

以下 C# 源代码展示了如何使用 document taxonomy 对文档进行分类并获得一些最佳分类类别。

/*
* 使用 C# 使用 Document Taxonomy 对文档(PDF、Word、...) 进行分类
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

使用 C# 对受密码保护的文档进行分类

如果您的文档使用密码保护,您可以在分类时提供凭据。以下是使用C#对受密码保护的文档进行分类的步骤

以下代码片段显示了如何使用默认分类法 (IAB-2) 对受密码保护的文档进行分类并获得最佳分类法类别。

/*
* 使用 C# 对受密码保护的文档进行分类
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

分类的默认值为 IAB-2,最佳结果的计数为 1.

获得免费许可证

您可以 获得免费的临时许可证 以便在没有评估限制的情况下使用 API。

结论

总而言之,我们学会了使用不同的分类法对各种文档进行分类。更准确地说,我们根据 IAB-2 对 PDF 文档进行分类,并使用 C# 对文档分类。此外,我们还讨论了如何使用默认或特定分类法对受密码保护的 Word 文档进行分类。现在您可以将文档分类功能集成到您的 .NET 应用程序中。

有关 API 的更多信息,请访问 文档。如有疑问,请通过 论坛 联系我们。

也可以看看