Anteriormente, discutimos como podemos automatizar a análise e classificar documentos completos programaticamente. Muitas vezes, é necessário classificar apenas uma parte do documento ou apenas algumas declarações. Neste artigo, identificaremos as melhores categorias taxonômicas possíveis do texto selecionado. Aprenderemos como podemos classificar texto de acordo com o IAB-2 e taxonomias de documentos usando C#.

Os seguintes tópicos são abordados abaixo:

API .NET para classificação taxonômica de texto

GroupDocs.Classification for .NET é a API que permite diferentes técnicas para a classificação de conteúdo de texto em aplicativos .NET. Usaremos esta API para encontrar as melhores categorias taxonômicas possíveis do texto fornecido usando C# nos exemplos.

Você pode baixar o instalador DLLs ou MSI da seção de downloads ou instalar a API em seu aplicativo .NET via NuGet.

PM> Install-Package GroupDocs.Classification

Classificação de texto com taxonomia IAB-2 usando C#

O IAB-2 categoriza o conteúdo em categorias taxonômicas definidas e então o classifica com base na análise. A seguir estão as etapas para classificação taxonômica de texto com taxonomia IAB-2 usando C#.

  • Instancie o classificador usando a classe Classifier.
  • Definir o texto para análise taxonômica.
  • Defina a Taxonomia como IAB2.
  • Defina o número de contagem de melhores resultados como resultado da classificação. (Opcional)
  • Obtenha as categorias taxonômicas do texto fornecido chamando o método Classify com os parâmetros definidos.
  • Imprima os BestResults da resposta de classificação do método Classify.

O código-fonte C# a seguir mostra como classificar texto usando a taxonomia IAB-2 e obter as principais categorias com a melhor correspondência.

/*
* Classificar texto com taxonomia IAB-2 usando C#
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";

var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: Healthy\_Living,      Probability: 0.4144087
 Class: Medical\_Health,     Probability: 0.2108202
 Class: Science,                 Probability: 0.1584931

Classificação de texto com taxonomia de documentos usando C#

A taxonomia de documentos classifica o conteúdo em diferentes classes de documentos, como anúncios, faturas, notícias, currículos, cartas, e-mails, etc. A seguir estão as etapas para classificação taxonômica de texto com taxonomia de documentos usando C#.

  • Instanciar o Classificador.
  • Carregue o texto para análise taxonômica.
  • Defina o número de melhores resultados contados como resultado da classificação. (Opcional)
  • Defina a Taxonomia como Documentos.
  • Obtenha os grupos taxonômicos chamando o método Classify com os parâmetros definidos acima.
  • Imprima os BestResults da resposta de classificação do método Classify.

O código-fonte C# a seguir mostra como classificar o conteúdo do texto e obter algumas de suas principais categorias taxonômicas usando a taxonomia de documentos.

/*
* Classificar texto com taxonomia de documentos usando C#
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";

var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: ADVE,      Probability: 0.9999645
 Class: Report,     Probability: 3.461805E-05

Obtenha uma licença gratuita

Você pode obter uma licença temporária gratuita para usar a API sem as limitações de avaliação.

Conclusão

Resumindo, aprendemos a classificar vários tipos de documentos usando diferentes taxonomias. Nos exemplos, classificamos o texto conforme IAB-2 e as taxonomias de documentos usando C#. Depois de passar pela série de posts, você pode construir seu próprio aplicativo de classificação .NET para classificar documentos, bem como texto com diferentes taxonomias e configurações.

Para saber mais sobre a API, visite a documentação. Para dúvidas, entre em contato conosco através do fórum.

Veja também