Phân loại về cơ bản là một cách tiếp cận trong đó văn bản được xác định một cách có hệ thống và sau đó được sắp xếp theo các quy tắc. Phân loại học xác định khoa học của sự phân loại như vậy. Khi bạn đang xử lý một loạt các tài liệu văn bản, thật khó để tìm thấy chủ đề của bất kỳ tài liệu nào cho đến khi phân loại nội dung theo phân loại. Trong bài viết này, bạn sẽ tìm hiểu cách lập trình phân loại tài liệu theo IAB-2 và phân loại tài liệu bằng C#.

Các chủ đề sau đây được đề cập dưới đây:

.NET API để phân loại tài liệu theo nguyên tắc phân loại

GroupDocs.Classification cung cấp giải pháp phân loại cho các loại ứng dụng khác nhau. API .NET của nó cho phép bạn phân loại các tài liệu có định dạng tệp khác nhau theo các danh mục phân loại khác nhau trong các ứng dụng .NET của bạn. Chúng tôi sẽ sử dụng API GroupDocs.Classification for .NET để phân loại tài liệu PDF và Word bằng C#.

Bạn có thể tải xuống trình cài đặt DLL hoặc MSI từ phần tải xuống hoặc cài đặt API trong ứng dụng .NET của bạn qua NuGet.

PM> Install-Package GroupDocs.Classification

Phân loại tài liệu với IAB-2 Taxonomy bằng C#

IAB-2 phân loại nội dung của tài liệu thành nhiều chủ đề và sau đó phân loại nó dựa trên mức độ chuyên sâu. Sau đây là các bước để xác định phân loại tài liệu phân loại theo phân loại IAB-2 bằng C#.

  • Khởi tạo bộ phân loại bằng lớp Classifier.
  • Xác định tài liệu đầu vào và thư mục đầu vào.
  • Xác định [Phân loại 12 là IAB2.
  • Đặt số lượng cho một vài kết quả tốt nhất đầu tiên trong phản hồi. (Không bắt buộc)
  • Nhận các danh mục phân loại bằng cách gọi phương thức Classify với các tham số đã xác định.
  • In Tên lớp tốt nhấtXác suất bằng cách sử dụng phản hồi phân loại của phương pháp Phân loại.

Mã nguồn C# sau đây cho biết cách phân loại tài liệu bằng cách sử dụng phân loại IAB-2 và nhận được một số kết quả phân loại tài liệu hàng đầu.

/*
* Phân loại tài liệu (PDF, Word, ...) với IAB-2 Taxonomy sử dụng C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Phân loại tài liệu với Document Taxonomy bằng C#

Phân loại tài liệu được sử dụng để xác định [các lớp tài liệu] khác nhau, chẳng hạn như Hóa đơn, CV, biểu mẫu, email, v.v. Sau đây là các bước để xác định phân loại tài liệu bằng phân loại tài liệu bằng C#.

  • Khởi tạo bộ phân loại bằng lớp Classifier.
  • Đặt tài liệu đầu vào và thư mục.
  • Xác định Taxonomy là Tài liệu.
  • Đặt số đếm cho số lượng kết quả hàng đầu trong phản hồi. (Không bắt buộc)
  • Nhận các nhóm phân loại bằng cách gọi phương thức Classify với các tham số được xác định ở trên.
  • In Tên lớp tốt nhấtXác suất bằng cách sử dụng phản hồi phân loại của phương pháp Phân loại.

Mã nguồn C# sau đây cho thấy cách phân loại tài liệu và nhận một số danh mục phân loại tốt nhất bằng cách sử dụng phân loại tài liệu.

/*
* Phân loại tài liệu (PDF, Word, ...) với Document Taxonomy sử dụng C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Phân loại tài liệu được bảo vệ bằng mật khẩu bằng C#

Nếu tài liệu của bạn được bảo mật bằng mật khẩu, bạn chỉ cần cung cấp thông tin xác thực trong khi phân loại. Sau đây là các bước để phân loại tài liệu được bảo vệ bằng mật khẩu bằng C#

  • Khởi tạo Bộ phân loại.
  • Xác định tài liệu đầu vào, thư mục đầu vào và mật khẩu của tài liệu được bảo vệ.
  • Xác định Taxonomy là Tài liệu.
  • Lấy nhóm phân loại bằng cách gọi phương thức Classify với các tham số đã xác định.
  • Nhận Tên lớp tốt nhấtXác suất từ phản hồi của phương pháp Phân loại.

Đoạn mã sau cho biết cách phân loại các tài liệu được bảo vệ bằng mật khẩu và nhận danh mục phân loại tốt nhất bằng cách sử dụng phân loại mặc định (IAB-2).

/*
* Phân loại tài liệu được bảo vệ bằng mật khẩu bằng C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

Các giá trị mặc định cho phân loại sẽ là IAB-2 và số lượng kết quả tốt nhất sẽ là 1.

Nhận giấy phép miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để sử dụng API mà không bị giới hạn đánh giá.

Sự kết luận

Để kết luận, chúng tôi đã học cách phân loại các loại tài liệu khác nhau bằng cách sử dụng các nguyên tắc phân loại khác nhau. Chính xác hơn, chúng tôi đã phân loại tài liệu PDF theo IAB-2 và phân loại tài liệu bằng C#. Hơn nữa, chúng tôi đã thảo luận về cách chúng tôi có thể phân loại các tài liệu Word được bảo vệ bằng mật khẩu với phân loại theo phân loại mặc định hoặc cụ thể. Bây giờ bạn có thể tích hợp tính năng phân loại tài liệu trong ứng dụng .NET của mình.

Để biết thêm về API, hãy truy cập tài liệu. Nếu có thắc mắc, hãy liên hệ với chúng tôi qua diễn đàn.

Xem thêm