Una classificazione è fondamentalmente un approccio in cui il testo viene identificato sistematicamente e quindi organizzato secondo regole. La tassonomia definisce la scienza di tale classificazione. Quando hai a che fare con un mucchio di documenti testuali, diventa difficile trovare un argomento di qualsiasi documento fino alla classificazione tassonomica del contenuto. In questo articolo imparerai come classificare a livello di codice i documenti secondo IAB-2 e la tassonomia dei documenti usando C#.

Di seguito vengono trattati i seguenti argomenti:

API .NET per la classificazione tassonomica dei documenti

GroupDocs.Classification fornisce la soluzione di classificazione per diversi tipi di applicazioni. La sua API .NET ti consente di classificare documenti di vari formati di file in base a diverse categorie tassonomiche all’interno delle tue applicazioni .NET. Useremo la sua API GroupDocs.Classification for .NET per la classificazione di documenti PDF e Word usando C#.

Puoi scaricare le DLL o il programma di installazione MSI dalla sezione download o installare l’API nella tua applicazione .NET tramite NuGet.

PM> Install-Package GroupDocs.Classification

Classifica i documenti con la tassonomia IAB-2 utilizzando C#

IAB-2 classifica il contenuto del documento in più argomenti e quindi lo classifica in base al livello di profondità. Di seguito sono riportati i passaggi per identificare la classificazione tassonomica dei documenti con IAB-2 tassonomia utilizzando C#.

Il codice sorgente C# seguente mostra come classificare i documenti usando la tassonomia IAB-2 e ottenere alcuni dei migliori risultati di classificazione dei documenti.

/*
* Classifica i documenti (PDF, Word, ...) con la tassonomia IAB-2 utilizzando C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Classifica i documenti con la tassonomia dei documenti usando C#

La tassonomia dei documenti viene utilizzata per identificare diverse classi di documenti, come fatture, CV, moduli, e-mail e così via. Di seguito sono riportati i passaggi per identificare la classificazione tassonomica dei documenti con la tassonomia dei documenti utilizzando C#.

Il codice sorgente C# seguente mostra come classificare i documenti e ottenere alcune delle migliori categorie tassonomiche usando tassonomia dei documenti.

/*
* Classifica i documenti (PDF, Word, ...) con la tassonomia dei documenti utilizzando C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Classifica i documenti protetti da password usando C#

Se il tuo documento è protetto con una password, puoi semplicemente fornire le credenziali durante la classificazione. Di seguito sono riportati i passaggi per la classificazione dei documenti protetti da password utilizzando C#

Il frammento di codice seguente mostra come classificare i documenti protetti da password e ottenere la migliore categoria tassonomica usando la tassonomia predefinita (IAB-2).

/*
* Classifica i documenti protetti da password utilizzando C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

I valori predefiniti per la tassonomia sarebbero IAB-2 e il conteggio dei risultati migliori sarebbe 1.

Ottieni una licenza gratuita

Puoi ottenere una licenza temporanea gratuita per utilizzare l’API senza i limiti di valutazione.

Conclusione

Per concludere, abbiamo imparato a classificare vari tipi di documenti utilizzando diverse tassonomie. Più precisamente, abbiamo classificato i documenti PDF secondo IAB-2 e le tassonomie dei documenti utilizzando C#. Inoltre, abbiamo discusso di come classificare i documenti Word protetti da password con una classificazione tassonomica predefinita o specifica. Ora puoi integrare la funzione di classificazione dei documenti all’interno della tua applicazione .NET.

Per ulteriori informazioni sull’API, visita la documentazione. Per domande, contattaci tramite il forum.

Guarda anche