Uma classificação é basicamente uma abordagem na qual o texto é sistematicamente identificado e então organizado de acordo com regras. A taxonomia define a ciência de tal classificação. Quando você está lidando com um monte de documentos textuais, fica difícil encontrar um tópico de qualquer documento até a classificação taxonômica do conteúdo. Neste artigo, você aprenderá como classificar documentos programaticamente de acordo com o IAB-2 e a taxonomia de documentos usando C#.

Os seguintes tópicos são abordados abaixo:

API .NET para Classificação Taxonômica de Documentos

GroupDocs.Classification fornece a solução de classificação para diferentes tipos de aplicativos. Sua API .NET permite classificar documentos de vários formatos de arquivo de acordo com diferentes categorias taxonômicas dentro de seus aplicativos .NET. Usaremos sua API GroupDocs.Classification for .NET para a classificação de documentos PDF e Word usando C#.

Você pode baixar o instalador DLLs ou MSI da seção de downloads ou instalar a API em seu aplicativo .NET via NuGet.

PM> Install-Package GroupDocs.Classification

Classifique documentos com taxonomia IAB-2 usando C#

O IAB-2 categoriza o conteúdo do documento em vários tópicos e o classifica com base no nível de profundidade. A seguir estão as etapas para identificar a classificação taxonômica de documentos com taxonomia IAB-2 usando C#.

  • Instancie o classificador usando a classe Classifier.
  • Defina o documento de entrada e a pasta de entrada.
  • Defina a Taxonomia como IAB2.
  • Defina a contagem para os primeiros melhores resultados na resposta. (Opcional)
  • Obtenha as categorias taxonômicas chamando o método Classify com os parâmetros definidos.
  • Imprima o Best Class Name e Probability usando a resposta de classificação do método Classify.

O código-fonte C# a seguir mostra como classificar documentos usando a taxonomia IAB-2 e obter alguns dos principais resultados de classificação de documentos.

/*
* Classifique documentos (PDF, Word, ...) com Taxonomia IAB-2 usando C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Classifique documentos com taxonomia de documentos usando C#

A taxonomia de documentos é usada para identificar diferentes classes de documentos, como faturas, currículos, formulários, emails, etc. A seguir estão as etapas para identificar a classificação taxonômica de documentos com taxonomia de documentos usando C#.

  • Instancie o classificador usando a classe Classifier.
  • Defina o documento de entrada e a pasta.
  • Defina a Taxonomia como Documentos.
  • Defina a contagem para o número de resultados principais na resposta. (Opcional)
  • Obtenha os grupos taxonômicos chamando o método Classify com os parâmetros definidos acima.
  • Imprima o Best Class Name e Probability usando a resposta de classificação do método Classify.

O código-fonte C# a seguir mostra como classificar documentos e obter algumas das melhores categorias taxonômicas usando a taxonomia de documentos.

/*
* Classifique documentos (PDF, Word, ...) com taxonomia de documentos usando C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Classifique documentos protegidos por senha usando C#

Se o seu documento estiver protegido por senha, você pode apenas fornecer as credenciais durante a classificação. A seguir estão as etapas para a classificação de documentos protegidos por senha usando C#

O trecho de código a seguir mostra como classificar documentos protegidos por senha e obter a melhor categoria taxonômica usando a taxonomia padrão (IAB-2).

/*
* Classifique documentos protegidos por senha usando C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

Os valores padrão para a taxonomia seriam IAB-2 e a contagem dos melhores resultados seria 1.

Obtenha uma licença gratuita

Você pode obter uma licença temporária gratuita para usar a API sem as limitações de avaliação.

Conclusão

Para concluir, aprendemos a classificar vários tipos de documentos usando diferentes taxonomias. Mais precisamente, classificamos documentos PDF de acordo com o IAB-2 e taxonomias de documentos usando C#. Além disso, discutimos como podemos classificar documentos do Word protegidos por senha com classificação taxonômica padrão ou específica. Agora você pode integrar o recurso de classificação de documentos em seu aplicativo .NET.

Para saber mais sobre a API, visite a documentação. Para dúvidas, entre em contato conosco através do fórum.

Veja também