Sınıflandırma, temel olarak metnin sistematik olarak tanımlandığı ve ardından kurallara göre düzenlendiği bir yaklaşımdır. Taksonomi, bu tür sınıflandırma bilimini tanımlar. Bir sürü metin belgesiyle uğraşırken, içeriğin taksonomik sınıflandırmasına kadar herhangi bir belgenin konusunu bulmak zorlaşıyor. Bu makalede, belgeleri IAB-2’ye göre programlı olarak sınıflandırmayı ve C# kullanarak belge taksonomisini öğreneceksiniz.

Aşağıdaki konular aşağıda ele alınmıştır:

Belgelerin Taksonomik Sınıflandırması için .NET API

GroupDocs.Classification, farklı türden uygulamalar için sınıflandırma çözümü sağlar. .NET API’si, çeşitli dosya biçimlerindeki belgeleri .NET uygulamalarınızdaki farklı taksonomik kategorilere göre sınıflandırmanıza olanak tanır. C# kullanarak PDF ve Word belgelerinin sınıflandırılması için GroupDocs.Classification for .NET API’sini kullanacağız.

İndirilenler bölümünden DLL’leri veya MSI yükleyicisini indirebilir veya NuGet aracılığıyla .NET uygulamanıza API’yi yükleyebilirsiniz.

PM> Install-Package GroupDocs.Classification

C# kullanarak Belgeleri IAB-2 Taksonomisi ile Sınıflandırın

IAB-2, belgenin içeriğini birden çok konuya göre sınıflandırır ve ardından derinlik düzeyine göre sınıflandırır. Aşağıda, C# kullanarak IAB-2 taksonomisi ile belgelerin taksonomik sınıflandırmasını belirleme adımları yer almaktadır.

  • Classifier sınıfını kullanarak sınıflandırıcının örneğini oluşturun.
  • Giriş belgesini ve giriş klasörünü tanımlayın.
  • Sınıflandırma öğesini IAB2 olarak tanımlayın.
  • Yanıttaki ilk birkaç en iyi sonucun sayısını ayarlayın. (İsteğe bağlı)
  • Tanımlanan parametrelerle Classify yöntemini çağırarak taksonomik kategorileri elde edin.
  • Classify yönteminin sınıflandırma yanıtı’nı kullanarak En İyi Sınıf Adı ve Olasılık‘i yazdırın.

Aşağıdaki C# kaynak kodu, IAB-2 taksonomisini kullanarak belgelerin nasıl sınıflandırılacağını ve en iyi belge sınıflandırma sonuçlarından bazılarının nasıl alınacağını gösterir.

/*
* C# kullanarak IAB-2 Taksonomisi ile belgeleri (PDF, Word, ...) sınıflandırın
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Belgeleri C# kullanarak Belge Taksonomisi ile Sınıflandırın

Belge sınıflandırması, Faturalar, Özgeçmişler, formlar, e-postalar vb. gibi farklı belge sınıflarını tanımlamak için kullanılır. Aşağıda, C# kullanarak belge sınıflandırmasına sahip belgelerin taksonomik sınıflandırmasını belirleme adımları yer almaktadır.

Aşağıdaki C# kaynak kodu, belgelerin nasıl sınıflandırılacağını ve belge taksonomisini kullanarak en iyi taksonomik kategorilerden bazılarının nasıl alınacağını gösterir.

/*
* Belgeleri (PDF, Word, ...) C# kullanarak Belge Taksonomisi ile sınıflandırın
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

C# kullanarak Parola Korumalı Belgeleri Sınıflandırın

Belgeniz bir parola ile güvence altına alınmışsa, sınıflandırma yaparken yalnızca kimlik bilgilerini sağlayabilirsiniz. C# kullanarak parola korumalı belgelerin sınıflandırılması için adımlar aşağıdadır.

Aşağıdaki kod parçacığı, varsayılan taksonomiyi (IAB-2) kullanarak parola korumalı belgelerin nasıl sınıflandırılacağını ve en iyi taksonomik kategorinin nasıl alınacağını gösterir.

/*
* C# kullanarak parola korumalı belgeleri sınıflandırın
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

Taksonomi için varsayılan değerler IAB-2 olur ve en iyi sonuçların sayısı 1 olur.

Ücretsiz Lisans Alın

API’yi değerlendirme sınırlamaları olmadan kullanmak için ücretsiz bir geçici lisans alabilirsiniz.

Çözüm

Sonuç olarak, farklı türde belgeleri farklı taksonomiler kullanarak sınıflandırmayı öğrendik. Daha doğrusu, PDF belgelerini IAB-2’ye göre sınıflandırdık ve C# kullanarak belge sınıflandırmalarını yaptık. Ayrıca, varsayılan veya belirli taksonomik sınıflandırma ile parola korumalı Word belgelerini nasıl sınıflandırabileceğimizi tartıştık. Artık belge sınıflandırma özelliğini .NET uygulamanıza entegre edebilirsiniz.

API hakkında daha fazla bilgi için belgeleri ziyaret edin. Sorularınız için forum aracılığıyla bize ulaşın.

Ayrıca bakınız