Klasifikasi pada dasarnya adalah pendekatan di mana teks diidentifikasi secara sistematis dan kemudian disusun menurut aturan. Taksonomi mendefinisikan ilmu klasifikasi tersebut. Ketika Anda berurusan dengan banyak dokumen tekstual, sulit untuk menemukan topik dari dokumen apa pun hingga klasifikasi taksonomi konten. Pada artikel ini, Anda akan mempelajari cara mengklasifikasikan dokumen secara terprogram menurut IAB-2 dan taksonomi dokumen menggunakan C#.

Topik-topik berikut dibahas di bawah ini:

.NET API untuk Klasifikasi Dokumen Taksonomi

GroupDocs.Classification menyediakan solusi klasifikasi untuk berbagai jenis aplikasi. API .NET-nya memungkinkan Anda untuk mengklasifikasikan dokumen dari berbagai format file sesuai dengan kategori taksonomi yang berbeda dalam aplikasi .NET Anda. Kami akan menggunakan GroupDocs.Classification for .NET API untuk klasifikasi dokumen PDF dan Word menggunakan C#.

Anda dapat mengunduh penginstal DLL atau MSI dari bagian unduhan atau menginstal API di aplikasi .NET Anda melalui NuGet.

PM> Install-Package GroupDocs.Classification

Klasifikasi Dokumen dengan Taksonomi IAB-2 menggunakan C#

IAB-2 mengkategorikan konten dokumen menjadi beberapa topik, lalu mengklasifikasikannya berdasarkan tingkat kedalaman. Berikut adalah langkah-langkah untuk mengidentifikasi klasifikasi taksonomi dokumen dengan taksonomi IAB-2 menggunakan C#.

  • Instansiasi classifier menggunakan Classifier class.
  • Tentukan dokumen input dan folder input.
  • Tentukan Taksonomi sebagai IAB2.
  • Tetapkan hitungan untuk beberapa hasil terbaik pertama dalam respons. (Opsional)
  • Dapatkan kategori taksonomi dengan memanggil metode Classify dengan parameter yang ditentukan.
  • Cetak Nama Kelas Terbaik dan Probabilitas menggunakan respons klasifikasi dari metode Klasifikasi.

Kode sumber C# berikut menunjukkan cara mengklasifikasikan dokumen menggunakan taksonomi IAB-2 dan mendapatkan beberapa hasil klasifikasi dokumen teratas.

/*
* Klasifikasikan dokumen (PDF, Word, ...) dengan Taksonomi IAB-2 menggunakan C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Klasifikasi Dokumen dengan Taksonomi Dokumen menggunakan C#

Taksonomi dokumen digunakan untuk mengidentifikasi berbagai kelas dokumen, seperti Faktur, CV, formulir, email, dll. Berikut adalah langkah-langkah untuk mengidentifikasi klasifikasi taksonomi dokumen dengan taksonomi dokumen menggunakan C#.

  • Instansiasi classifier menggunakan Classifier class.
  • Atur dokumen dan folder masukan.
  • Definisikan Taksonomi sebagai Dokumen.
  • Tetapkan hitungan untuk jumlah hasil teratas dalam respons. (Opsional)
  • Dapatkan grup taksonomi dengan memanggil metode Classify dengan parameter yang ditentukan di atas.
  • Cetak Nama Kelas Terbaik dan Probabilitas menggunakan respons klasifikasi dari metode Klasifikasi.

Kode sumber C# berikut menunjukkan cara mengklasifikasikan dokumen dan mendapatkan beberapa kategori taksonomi terbaik menggunakan taksonomi dokumen.

/*
* Klasifikasikan dokumen (PDF, Word, ...) dengan Taksonomi Dokumen menggunakan C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Klasifikasi Dokumen yang Dilindungi Kata Sandi menggunakan C#

Jika dokumen Anda diamankan dengan kata sandi, Anda cukup memberikan kredensial saat mengklasifikasikan. Berikut langkah-langkah klasifikasi dokumen yang dilindungi password menggunakan C#

Cuplikan kode berikut menunjukkan cara mengklasifikasikan dokumen yang dilindungi kata sandi dan mendapatkan kategori taksonomi terbaik menggunakan taksonomi default (IAB-2).

/*
* Klasifikasikan dokumen yang dilindungi kata sandi menggunakan C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

Nilai default untuk taksonomi adalah IAB-2 dan jumlah hasil terbaik adalah 1.

Dapatkan Lisensi Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk menggunakan API tanpa batasan evaluasi.

Kesimpulan

Sebagai penutup, kami belajar mengklasifikasikan berbagai jenis dokumen menggunakan taksonomi yang berbeda. Lebih tepatnya, kami mengklasifikasikan dokumen PDF sesuai IAB-2 dan mendokumentasikan taksonomi menggunakan C#. Selanjutnya, kami membahas bagaimana kami dapat mengklasifikasikan dokumen Word yang dilindungi kata sandi dengan klasifikasi taksonomi default atau spesifik. Sekarang Anda dapat mengintegrasikan fitur klasifikasi dokumen dalam aplikasi .NET Anda.

Untuk selengkapnya tentang API, kunjungi dokumentasi. Untuk pertanyaan, hubungi kami melalui forum.

Lihat juga