分類基本上是一種系統地識別文本然後根據規則組織文本的方法。分類學定義了這種分類的科學。當您處理一堆文本文檔時,在對內容進行分類之前,很難找到任何文檔的主題。在本文中,您將學習如何使用 C# 根據 IAB-2 和文檔分類法以編程方式對文檔進行分類。
以下主題涵蓋如下:
用於文檔分類學分類的 .NET API
GroupDocs.Classification 為不同類型的應用程序提供分類解決方案。其 .NET API 允許您根據 .NET 應用程序中的不同分類類別對各種文件格式的文檔進行分類。我們將使用它的 GroupDocs.Classification for .NET API,使用 C# 對 PDF 和 Word 文檔進行分類。
您可以從 下載部分 下載 DLL 或 MSI 安裝程序,或通過 NuGet 在您的 .NET 應用程序中安裝 API。
PM> Install-Package GroupDocs.Classification
使用 C# 使用 IAB-2 分類法對文檔進行分類
IAB-2 將文檔的內容分類為多個主題,然後根據深度級別對其進行分類。以下是使用 C# 識別具有 IAB-2 分類法 的文檔的分類學分類的步驟。
- 使用 Classifier 類實例化分類器。
- 定義輸入文檔和輸入文件夾。
- 將 分類 定義為 IAB2。
- 設置響應中前幾個最佳結果的計數。 (可選的)
- 通過使用定義的參數調用 Classify 方法來獲取分類類別。
- 使用 Classify 方法的 classification response 打印 Best Class Name 和 Probability。
以下 C# 源代碼顯示瞭如何使用 IAB-2 分類法對文檔進行分類並獲得一些頂級文檔分類結果。
/*
* 使用 C# 使用 IAB-2 分類法對文檔(PDF、Word 等)進行分類
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: Technology\_&Computing, Probability: 0.8188434
Class: Video\_Gaming, Probability: 0.12686
Class: Hobbies&\_Interests, Probability: 0.03112753
Class: Music\_and\_Audio, Probability: 0.006756512
使用 C# 使用文檔分類法對文檔進行分類
文檔分類法用於識別不同的文檔類別,例如發票、簡歷、表格、電子郵件等。以下是使用C#識別具有文檔分類法的文檔的分類學分類的步驟。
- 使用 Classifier 類實例化分類器。
- 設置輸入文檔和文件夾。
- 將 Taxonomy 定義為文檔。
- 設置響應中排名靠前的結果數。 (可選的)
- 通過使用上述定義的參數調用 Classify 方法來獲取分類組。
- 使用 Classify 方法的 classification response 打印 Best Class Name 和 Probability。
以下 C# 源代碼顯示瞭如何使用文檔分類法對文檔進行分類並獲得一些最佳分類學類別。
/*
* 使用 C# 使用文檔分類法對文檔(PDF、Word 等)進行分類
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.3874436
Class: Resume, Probability: 0.2438204
Class: News, Probability: 0.1357582
Class: Memo, Probability: 0.0641943
使用 C# 對受密碼保護的文檔進行分類
如果您的文檔使用密碼保護,您可以在分類時提供憑據。下面是使用C#對密碼保護文檔進行分類的步驟
- 實例化分類器。
- 定義受保護文檔的輸入文檔、輸入文件夾和密碼。
- 將 Taxonomy 定義為文檔。
- 通過使用定義的參數調用 Classify 方法來獲取分類組。
- 從 Classify 方法的 response 中獲取 Best Class Name 和 Probability。
以下代碼片段顯示瞭如何使用默認分類法 (IAB-2) 對受密碼保護的文檔進行分類並獲得最佳分類類別。
/*
* 使用 C# 對受密碼保護的文檔進行分類
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests, Probability: 0.4548415
分類法的默認值為 IAB-2,最佳結果的計數為 1。
獲得免費許可證
您可以獲得免費的臨時許可證,以便在不受評估限制的情況下使用 API。
結論
總而言之,我們學會了使用不同的分類法對各種文檔進行分類。更準確地說,我們根據 IAB-2 對 PDF 文檔進行分類,並使用 C# 進行文檔分類。此外,我們還討論瞭如何使用默認或特定分類法對受密碼保護的 Word 文檔進行分類。現在您可以將文檔分類功能集成到您的 .NET 應用程序中。
有關 API 的更多信息,請訪問 文檔。如有疑問,請通過論壇 聯繫我們。