Une classification est essentiellement une approche dans laquelle le texte est systématiquement identifié puis organisé selon des règles. La taxonomie définit la science d’une telle classification. Lorsque vous avez affaire à un tas de documents textuels, il devient difficile de trouver un sujet de n’importe quel document jusqu’à la classification taxonomique du contenu. Dans cet article, vous apprendrez comment classer par programmation des documents selon IAB-2 et la taxonomie des documents à l’aide de C#.

Les sujets suivants sont traités ci-dessous :

API .NET pour la classification taxonomique des documents

GroupDocs.Classification fournit la solution de classification pour différents types d’applications. Son API .NET vous permet de classer des documents de différents formats de fichiers selon différentes catégories taxonomiques au sein de vos applications .NET. Nous utiliserons son API GroupDocs.Classification for .NET pour la classification des documents PDF et Word à l’aide de C#.

Vous pouvez télécharger le programme d’installation DLLs ou MSI à partir de la section téléchargements ou installer l’API dans votre application .NET via NuGet.

PM> Install-Package GroupDocs.Classification

Classer les documents avec la taxonomie IAB-2 à l’aide de C#

IAB-2 catégorise le contenu du document en plusieurs sujets, puis le classe en fonction du niveau de profondeur. Voici les étapes pour identifier la classification taxonomique des documents avec taxonomie IAB-2 à l’aide de C#.

  • Instanciez le classificateur à l’aide de la classe Classifier.
  • Définissez le document d’entrée et le dossier d’entrée.
  • Définissez la taxonomie comme IAB2.
  • Définissez le décompte des premiers meilleurs résultats dans la réponse. (Optionnel)
  • Obtenez les catégories taxonomiques en appelant la méthode Classify avec les paramètres définis.
  • Imprimez le Nom de la meilleure classe et la Probabilité en utilisant la réponse de classification de la méthode Classifier.

Le code source C# suivant montre comment classer des documents à l’aide de la taxonomie IAB-2 et obtenir certains des meilleurs résultats de classification de documents.

/*
* Classer des documents (PDF, Word, ...) avec la taxonomie IAB-2 en utilisant C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Classer les documents avec la taxonomie des documents à l’aide de C#

La taxonomie des documents est utilisée pour identifier différentes classes de documents, telles que les factures, les CV, les formulaires, les e-mails, etc. Voici les étapes pour identifier la classification taxonomique des documents avec la taxonomie des documents à l’aide de C#.

  • Instanciez le classificateur à l’aide de la classe Classifier.
  • Définissez le document d’entrée et le dossier.
  • Définissez la Taxonomie comme Documents.
  • Définissez le nombre de meilleurs résultats dans la réponse. (Optionnel)
  • Obtenez les groupes taxonomiques en appelant la méthode Classify avec les paramètres définis ci-dessus.
  • Imprimez le Nom de la meilleure classe et la Probabilité en utilisant la réponse de classification de la méthode Classifier.

Le code source C# suivant montre comment classer les documents et obtenir certaines des meilleures catégories taxonomiques à l’aide de la taxonomie des documents.

/*
* Classer des documents (PDF, Word, ...) avec Document Taxonomy en C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Classer les documents protégés par mot de passe à l’aide de C#

Si votre document est sécurisé par un mot de passe, vous pouvez simplement fournir les informations d’identification lors de la classification. Voici les étapes pour la classification des documents protégés par mot de passe à l’aide de C#

  • Instancier le Classificateur.
  • Définissez le document d’entrée, le dossier d’entrée et le mot de passe du document protégé.
  • Définissez la Taxonomie comme Documents.
  • Obtenez le groupe taxonomique en appelant la méthode Classify avec les paramètres définis.
  • Obtenez le Meilleur nom de classe et la Probabilité à partir de la réponse de la méthode Classify.

L’extrait de code suivant montre comment classer les documents protégés par mot de passe et obtenir la meilleure catégorie taxonomique à l’aide de la taxonomie par défaut (IAB-2).

/*
* Classer les documents protégés par mot de passe à l'aide de C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

Les valeurs par défaut pour la taxonomie seraient IAB-2 et le nombre des meilleurs résultats serait 1.

Obtenez une licence gratuite

Vous pouvez obtenir une licence temporaire gratuite afin d’utiliser l’API sans les limitations d’évaluation.

Conclusion

Pour conclure, nous avons appris à classer différents types de documents en utilisant différentes taxonomies. Plus précisément, nous avons classé les documents PDF selon IAB-2 et les taxonomies de documents à l’aide de C#. En outre, nous avons discuté de la manière dont nous pouvons classer les documents Word protégés par mot de passe avec une classification taxonomique par défaut ou spécifique. Vous pouvez maintenant intégrer la fonctionnalité de classification de documents dans votre application .NET.

Pour en savoir plus sur l’API, consultez la documentation. Pour toute question, contactez-nous via le forum.

Voir également