Trước đó, chúng ta đã thảo luận về cách chúng ta có thể tự động hóa việc phân tích và phân loại các tài liệu hoàn chỉnh theo chương trình. Người ta thường yêu cầu chỉ phân loại một số phần của tài liệu hoặc chỉ một vài câu lệnh. Trong bài viết này, chúng tôi sẽ xác định các danh mục phân loại tốt nhất có thể có của văn bản đã chọn. Chúng ta sẽ tìm hiểu cách chúng ta có thể phân loại văn bản theo IAB-2 và phân loại tài liệu bằng C#.

Các chủ đề sau đây được đề cập dưới đây:

.NET API để phân loại văn bản theo phân loại

GroupDocs.Classification for .NET là API cho phép các kỹ thuật khác nhau để phân loại nội dung văn bản trong các ứng dụng .NET. Chúng tôi sẽ sử dụng API này để tìm các danh mục phân loại tốt nhất có thể có của văn bản được cung cấp bằng C# trong các ví dụ.

Bạn có thể tải xuống trình cài đặt DLL hoặc MSI từ phần tải xuống hoặc cài đặt API trong ứng dụng .NET của bạn qua NuGet.

PM> Install-Package GroupDocs.Classification

Phân loại văn bản với IAB-2 Taxonomy sử dụng C#

IAB-2 phân loại nội dung thành các danh mục phân loại đã xác định và sau đó phân loại nội dung đó dựa trên phân tích. Sau đây là các bước để phân loại văn bản theo phân loại IAB-2 taxonomy bằng C#.

  • Khởi tạo bộ phân loại bằng lớp Classifier.
  • Xác định văn bản để phân tích phân loại.
  • Đặt Taxonomy là IAB2.
  • Đặt số lượng kết quả tốt nhất được tính là kết quả của phân loại. (Không bắt buộc)
  • Nhận các danh mục phân loại của văn bản được cung cấp bằng cách gọi phương thức Classify với các tham số đã xác định.
  • In Kết quả tốt nhất từ phản hồi phân loại của phương pháp Phân loại.

Mã nguồn C# sau đây cho biết cách phân loại văn bản bằng cách sử dụng phân loại IAB-2 và nhận các danh mục hàng đầu phù hợp nhất.

/*
* Phân loại văn bản với IAB-2 Taxonomy bằng C#
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";

var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: Healthy\_Living,      Probability: 0.4144087
 Class: Medical\_Health,     Probability: 0.2108202
 Class: Science,                 Probability: 0.1584931

Phân loại văn bản với Phân loại tài liệu bằng C#

Phân loại tài liệu phân loại nội dung thành [các lớp tài liệu] khác nhau, chẳng hạn như quảng cáo, hóa đơn, tin tức, sơ yếu lý lịch, thư, email, v.v. Sau đây là các bước để phân loại văn bản theo phân loại tài liệu bằng C#.

  • Khởi tạo Bộ phân loại.
  • Tải văn bản để phân tích phân loại.
  • Xác định số lượng kết quả tốt nhất được tính là kết quả của việc phân loại. (Không bắt buộc)
  • Đặt Taxonomy làm Tài liệu.
  • Nhận các nhóm phân loại bằng cách gọi phương thức Classify với các tham số được xác định ở trên.
  • In Kết quả tốt nhất từ phản hồi phân loại của phương pháp Phân loại.

Mã nguồn C# sau đây cho thấy cách phân loại nội dung văn bản và nhận một số danh mục phân loại hàng đầu của nó bằng cách sử dụng phân loại tài liệu.

/*
* Phân loại văn bản với Phân loại tài liệu bằng C#
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";

var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: ADVE,      Probability: 0.9999645
 Class: Report,     Probability: 3.461805E-05

Nhận giấy phép miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để sử dụng API mà không bị giới hạn đánh giá.

Sự kết luận

Tóm lại, chúng tôi đã học cách phân loại các loại tài liệu khác nhau bằng cách sử dụng các nguyên tắc phân loại khác nhau. Trong các ví dụ, chúng tôi đã phân loại văn bản theo IAB-2 và phân loại tài liệu bằng C#. Sau khi xem qua loạt bài đăng, bạn có thể xây dựng ứng dụng phân loại .NET của riêng mình để phân loại tài liệu cũng như văn bản với các nguyên tắc phân loại và cấu hình khác nhau.

Để biết thêm về API, hãy truy cập tài liệu. Nếu có thắc mắc, hãy liên hệ với chúng tôi qua diễn đàn.

Xem thêm