Eerder hebben we besproken hoe we de analyse kunnen automatiseren en volledige documenten programmatisch kunnen classificeren. Vaak is het nodig om slechts een deel van het document of slechts enkele verklaringen te classificeren. In dit artikel zullen we de best mogelijke taxonomische categorieën van de geselecteerde tekst identificeren. We zullen leren hoe we tekst kunnen classificeren volgens IAB-2 en taxonomieën kunnen documenteren met behulp van C#.

De volgende onderwerpen komen hieronder aan bod:

.NET API voor taxonomische classificatie van tekst

GroupDocs.Classification for .NET is de API die verschillende technieken mogelijk maakt voor de classificatie van tekstinhoud binnen .NET-toepassingen. We zullen deze API gebruiken om de best mogelijke taxonomische categorieën van de geleverde tekst te vinden met behulp van C# in voorbeelden.

U kunt de DLL’s of het MSI-installatieprogramma downloaden van de downloadsectie of de API in uw .NET-toepassing installeren via NuGet.

PM> Install-Package GroupDocs.Classification

Tekstclassificatie met IAB-2-taxonomie met behulp van C#

IAB-2 categoriseert de inhoud in gedefinieerde taxonomische categorieën en classificeert deze vervolgens op basis van de analyse. Hieronder volgen de stappen voor taxonomische classificatie van tekst met IAB-2 taxonomie met behulp van C#.

  • Instantiseer de classificatie met behulp van de klasse Classifier.
  • Definieer de tekst voor taxonomische analyse.
  • Stel de Taxonomie in als IAB2.
  • Stel het aantal beste resultaten in als resultaat van classificatie. (Optioneel)
  • Haal de taxonomische categorieën van de geleverde tekst op door de methode Classify aan te roepen met de gedefinieerde parameters.
  • Druk de BestResults af van de classificatiereactie van de Classify-methode.

De volgende C#-broncode laat zien hoe u tekst kunt classificeren met behulp van de IAB-2-taxonomie en hoe u de beste categorieën krijgt met de beste overeenkomst.

/*
* Tekst classificeren met IAB-2-taxonomie met behulp van C#
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";

var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: Healthy\_Living,      Probability: 0.4144087
 Class: Medical\_Health,     Probability: 0.2108202
 Class: Science,                 Probability: 0.1584931

Tekstclassificatie met documenttaxonomie met behulp van C#

Documententaxonomie classificeert de inhoud in verschillende documentklassen, zoals advertenties, facturen, nieuws, cv’s, brieven, e-mails, enz. Hieronder volgen de stappen voor taxonomische classificatie van tekst met documenttaxonomie met behulp van C#.

  • Maak een instantiëring van de Classifier.
  • Laad de tekst voor taxonomische analyse.
  • Definieer het aantal beste resultaten als resultaat van classificatie. (Optioneel)
  • Stel de Taxonomie in als Documenten.
  • Haal de taxonomische groepen op door de methode Classify aan te roepen met de hierboven gedefinieerde parameters.
  • Druk de BestResults af van de classificatierespons van de Classify-methode.

De volgende C#-broncode laat zien hoe u tekstinhoud kunt classificeren en enkele van de belangrijkste taxonomische categorieën kunt ophalen met behulp van documenttaxonomie.

/*
* Classificeer tekst met documenttaxonomie met behulp van C#
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";

var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: ADVE,      Probability: 0.9999645
 Class: Report,     Probability: 3.461805E-05

Ontvang een gratis licentie

U kunt een gratis tijdelijke licentie krijgen om de API te gebruiken zonder de evaluatiebeperkingen.

Conclusie

Kortom, we hebben geleerd verschillende soorten documenten te classificeren met behulp van verschillende taxonomieën. In de voorbeelden hebben we de tekst geclassificeerd volgens IAB-2 en de documenttaxonomieën met behulp van C#. Nadat u de reeks berichten hebt doorlopen, kunt u uw eigen .NET-classificatietoepassing bouwen om documenten te classificeren, evenals tekst met verschillende taxonomieën en configuraties.

Ga voor meer informatie over de API naar de documentatie. Neem voor vragen contact met ons op via het forum.

Zie ook