分類基本上是一種系統地識別文本然後根據規則組織文本的方法。分類學定義了這種分類的科學。當您處理一堆文本文檔時,在對內容進行分類之前,很難找到任何文檔的主題。在本文中,您將學習如何使用 C# 根據 IAB-2 和文檔分類法以編程方式對文檔進行分類。

以下主題涵蓋如下:

用於文檔分類學分類的 .NET API

GroupDocs.Classification 為不同類型的應用程序提供分類解決方案。其 .NET API 允許您根據 .NET 應用程序中的不同分類類別對各種文件格式的文檔進行分類。我們將使用它的 GroupDocs.Classification for .NET API,使用 C# 對 PDF 和 Word 文檔進行分類。

您可以從 下載部分 下載 DLL 或 MSI 安裝程序,或通過 NuGet 在您的 .NET 應用程序中安裝 API。

PM> Install-Package GroupDocs.Classification

使用 C# 使用 IAB-2 分類法對文檔進行分類

IAB-2 將文檔的內容分類為多個主題,然後根據深度級別對其進行分類。以下是使用 C# 識別具有 IAB-2 分類法 的文檔的分類學分類的步驟。

以下 C# 源代碼顯示瞭如何使用 IAB-2 分類法對文檔進行分類並獲得一些頂級文檔分類結果。

/*
* 使用 C# 使用 IAB-2 分類法對文檔(PDF、Word 等)進行分類
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

使用 C# 使用文檔分類法對文檔進行分類

文檔分類法用於識別不同的文檔類別,例如發票、簡歷、表格、電子郵件等。以下是使用C#識別具有文檔分類法的文檔的分類學分類的步驟。

以下 C# 源代碼顯示瞭如何使用文檔分類法對文檔進行分類並獲得一些最佳分類學類別。

/*
* 使用 C# 使用文檔分類法對文檔(PDF、Word 等)進行分類
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

使用 C# 對受密碼保護的文檔進行分類

如果您的文檔使用密碼保護,您可以在分類時提供憑據。下面是使用C#對密碼保護文檔進行分類的步驟

以下代碼片段顯示瞭如何使用默認分類法 (IAB-2) 對受密碼保護的文檔進行分類並獲得最佳分類類別。

/*
* 使用 C# 對受密碼保護的文檔進行分類
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

分類法的默認值為 IAB-2,最佳結果的計數為 1。

獲得免費許可證

您可以獲得免費的臨時許可證,以便在不受評估限制的情況下使用 API。

結論

總而言之,我們學會了使用不同的分類法對各種文檔進行分類。更準確地說,我們根據 IAB-2 對 PDF 文檔進行分類,並使用 C# 進行文檔分類。此外,我們還討論瞭如何使用默認或特定分類法對受密碼保護的 Word 文檔進行分類。現在您可以將文檔分類功能集成到您的 .NET 應用程序中。

有關 API 的更多信息,請訪問 文檔。如有疑問,請通過論壇 聯繫我們。

也可以看看