Una clasificación es básicamente un enfoque en el que el texto se identifica sistemáticamente y luego se organiza de acuerdo con reglas. La taxonomía define la ciencia de tal clasificación. Cuando se trata de un montón de documentos textuales, se vuelve difícil encontrar un tema de cualquier documento hasta la clasificación taxonómica del contenido. En este artículo, aprenderá cómo clasificar documentos mediante programación de acuerdo con IAB-2 y la taxonomía de documentos usando C#.

Los siguientes temas se tratan a continuación:

.NET API para clasificación taxonómica de documentos

GroupDocs.Classification proporciona la solución de clasificación para diferentes tipos de aplicaciones. Su API .NET le permite clasificar documentos de varios formatos de archivo según diferentes categorías taxonómicas dentro de sus aplicaciones .NET. Usaremos su GroupDocs.Classification for .NET API para la clasificación de documentos PDF y Word usando C#.

Puede descargar el instalador DLL o MSI desde la sección de descargas o instalar la API en su aplicación .NET a través de NuGet.

PM> Install-Package GroupDocs.Classification

Clasificar documentos con taxonomía IAB-2 usando C#

IAB-2 categoriza el contenido del documento en múltiples temas y luego lo clasifica según el nivel de profundidad. Los siguientes son los pasos para identificar la clasificación taxonómica de documentos con taxonomía IAB-2 usando C#.

El siguiente código fuente de C# muestra cómo clasificar documentos usando la taxonomía IAB-2 y obtener algunos de los mejores resultados de clasificación de documentos.

/*
* Clasifique documentos (PDF, Word, ...) con taxonomía IAB-2 usando C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Clasificar documentos con taxonomía de documentos usando C#

La taxonomía de documentos se usa para identificar diferentes clases de documentos, como facturas, CV, formularios, correos electrónicos, etc. Los siguientes son los pasos para identificar la clasificación taxonómica de documentos con taxonomía de documentos usando C#.

  • Crear una instancia del clasificador usando la clase Clasificador.
  • Establecer el documento de entrada y la carpeta.
  • Definir la Taxonomía como Documentos.
  • Establecer el recuento de la cantidad de resultados principales en la respuesta. (Opcional)
  • Obtenga los grupos taxonómicos llamando al método Classify con los parámetros definidos anteriormente.
  • Imprima el Nombre de la mejor clase y la Probabilidad usando la respuesta de clasificación del método Classify.

El siguiente código fuente de C# muestra cómo clasificar documentos y obtener algunas de las mejores categorías taxonómicas mediante taxonomía de documentos.

/*
* Clasifique documentos (PDF, Word, ...) con Document Taxonomy usando C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Clasificar documentos protegidos con contraseña usando C#

Si su documento está protegido con una contraseña, solo puede proporcionar las credenciales mientras clasifica. Los siguientes son los pasos para la clasificación de documentos protegidos con contraseña usando C#

El siguiente fragmento de código muestra cómo clasificar documentos protegidos con contraseña y obtener la mejor categoría taxonómica utilizando la taxonomía predeterminada (IAB-2).

/*
* Clasificar documentos protegidos con contraseña usando C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

Los valores predeterminados para la taxonomía serían IAB-2 y el recuento de los mejores resultados sería 1.

Obtenga una licencia gratis

Puede obtener una licencia temporal gratuita para utilizar la API sin las limitaciones de evaluación.

Conclusión

Para concluir, aprendimos a clasificar varios tipos de documentos utilizando diferentes taxonomías. Más precisamente, clasificamos documentos PDF según IAB-2 y taxonomías de documentos usando C#. Además, discutimos cómo podemos clasificar documentos de Word protegidos con contraseña con una clasificación taxonómica predeterminada o específica. Ahora puede integrar la función de clasificación de documentos dentro de su aplicación .NET.

Para obtener más información sobre la API, visite la documentación. Para consultas, contáctenos a través del foro.

Ver también