Una classificazione è fondamentalmente un approccio in cui il testo viene identificato sistematicamente e quindi organizzato secondo regole. La tassonomia definisce la scienza di tale classificazione. Quando hai a che fare con un mucchio di documenti testuali, diventa difficile trovare un argomento di qualsiasi documento fino alla classificazione tassonomica del contenuto. In questo articolo imparerai come classificare a livello di codice i documenti secondo IAB-2 e la tassonomia dei documenti usando C#.
Di seguito vengono trattati i seguenti argomenti:
- API .NET per la classificazione tassonomica
- Classificazione dei documenti con tassonomia IAB-2
- Classificare i documenti con la tassonomia dei documenti
- Classifica documenti protetti da password
API .NET per la classificazione tassonomica dei documenti
GroupDocs.Classification fornisce la soluzione di classificazione per diversi tipi di applicazioni. La sua API .NET ti consente di classificare documenti di vari formati di file in base a diverse categorie tassonomiche all’interno delle tue applicazioni .NET. Useremo la sua API GroupDocs.Classification for .NET per la classificazione di documenti PDF e Word usando C#.
Puoi scaricare le DLL o il programma di installazione MSI dalla sezione download o installare l’API nella tua applicazione .NET tramite NuGet.
PM> Install-Package GroupDocs.Classification
Classifica i documenti con la tassonomia IAB-2 utilizzando C#
IAB-2 classifica il contenuto del documento in più argomenti e quindi lo classifica in base al livello di profondità. Di seguito sono riportati i passaggi per identificare la classificazione tassonomica dei documenti con IAB-2 tassonomia utilizzando C#.
- Crea un’istanza del classificatore usando la classe Classifier.
- Definire il documento di input e la cartella di input.
- Definisci la Tassonomia come IAB2.
- Imposta il conteggio dei primi risultati migliori nella risposta. (Opzionale)
- Ottieni le categorie tassonomiche chiamando il metodo Classify con i parametri definiti.
- Stampa il Nome della classe migliore e la Probabilità utilizzando la risposta di classificazione del metodo Classifica.
Il codice sorgente C# seguente mostra come classificare i documenti usando la tassonomia IAB-2 e ottenere alcuni dei migliori risultati di classificazione dei documenti.
/*
* Classifica i documenti (PDF, Word, ...) con la tassonomia IAB-2 utilizzando C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: Technology\_&Computing, Probability: 0.8188434
Class: Video\_Gaming, Probability: 0.12686
Class: Hobbies&\_Interests, Probability: 0.03112753
Class: Music\_and\_Audio, Probability: 0.006756512
Classifica i documenti con la tassonomia dei documenti usando C#
La tassonomia dei documenti viene utilizzata per identificare diverse classi di documenti, come fatture, CV, moduli, e-mail e così via. Di seguito sono riportati i passaggi per identificare la classificazione tassonomica dei documenti con la tassonomia dei documenti utilizzando C#.
- Crea un’istanza del classificatore usando la classe Classifier.
- Impostare il documento di input e la cartella.
- Definisci la Tassonomia come Documenti.
- Imposta il conteggio per il numero di risultati migliori nella risposta. (Opzionale)
- Ottieni i gruppi tassonomici chiamando il metodo Classify con i parametri sopra definiti.
- Stampa il Nome della classe migliore e la Probabilità utilizzando la risposta di classificazione del metodo Classifica.
Il codice sorgente C# seguente mostra come classificare i documenti e ottenere alcune delle migliori categorie tassonomiche usando tassonomia dei documenti.
/*
* Classifica i documenti (PDF, Word, ...) con la tassonomia dei documenti utilizzando C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.3874436
Class: Resume, Probability: 0.2438204
Class: News, Probability: 0.1357582
Class: Memo, Probability: 0.0641943
Classifica i documenti protetti da password usando C#
Se il tuo documento è protetto con una password, puoi semplicemente fornire le credenziali durante la classificazione. Di seguito sono riportati i passaggi per la classificazione dei documenti protetti da password utilizzando C#
- Istanziare il Classificatore.
- Definire il documento di input, la cartella di input e la password del documento protetto.
- Definisci la Tassonomia come Documenti.
- Ottieni il gruppo tassonomico chiamando il metodo Classify con i parametri definiti.
- Ottieni il Best Class Name e Probability dalla risposta del metodo Classify.
Il frammento di codice seguente mostra come classificare i documenti protetti da password e ottenere la migliore categoria tassonomica usando la tassonomia predefinita (IAB-2).
/*
* Classifica i documenti protetti da password utilizzando C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests, Probability: 0.4548415
I valori predefiniti per la tassonomia sarebbero IAB-2 e il conteggio dei risultati migliori sarebbe 1.
Ottieni una licenza gratuita
Puoi ottenere una licenza temporanea gratuita per utilizzare l’API senza i limiti di valutazione.
Conclusione
Per concludere, abbiamo imparato a classificare vari tipi di documenti utilizzando diverse tassonomie. Più precisamente, abbiamo classificato i documenti PDF secondo IAB-2 e le tassonomie dei documenti utilizzando C#. Inoltre, abbiamo discusso di come classificare i documenti Word protetti da password con una classificazione tassonomica predefinita o specifica. Ora puoi integrare la funzione di classificazione dei documenti all’interno della tua applicazione .NET.
Per ulteriori informazioni sull’API, visita la documentazione. Per domande, contattaci tramite il forum.