Dříve jsme diskutovali o tom, jak můžeme automatizovat analýzu a klasifikovat kompletní dokumenty programově. Často se vyžaduje klasifikace pouze některé části dokumentu nebo pouze několika prohlášení. V tomto článku identifikujeme nejlepší možné taxonomické kategorie vybraného textu. Dozvíme se, jak můžeme klasifikovat text podle IAB-2 a dokumentovat taxonomie pomocí C#.

Níže jsou uvedena následující témata:

.NET API pro taxonomickou klasifikaci textu

GroupDocs.Classification for .NET je API, které umožňuje různé techniky klasifikace textového obsahu v aplikacích .NET. Toto API použijeme k nalezení nejlepších možných taxonomických kategorií poskytnutého textu pomocí C# v příkladech.

Můžete si stáhnout DLL nebo instalační program MSI z části ke stažení nebo nainstalovat API do vaší aplikace .NET prostřednictvím NuGet.

PM> Install-Package GroupDocs.Classification

Klasifikace textu s taxonomií IAB-2 pomocí C#

IAB-2 kategorizuje obsah do definovaných taxonomických kategorií a poté jej klasifikuje na základě analýzy. Následují kroky pro taxonomickou klasifikaci textu s IAB-2 taxonomie pomocí C#.

  • Vytvořte instanci klasifikátoru pomocí třídy Classifier.
  • Definujte text pro taxonomickou analýzu.
  • Nastavte Taxonomie jako IAB2.
  • Nastavte počet nejlepších výsledků jako výsledek klasifikace. (Volitelný)
  • Získejte taxonomické kategorie poskytnutého textu voláním metody Classify s definovanými parametry.
  • Vytiskněte BestResults z klasifikační odpovědi metody Classify.

Následující zdrojový kód C# ukazuje, jak klasifikovat text pomocí taxonomie IAB-2 a získat nejlepší kategorie s nejlepší shodou.

/*
* Klasifikace textu pomocí taxonomie IAB-2 pomocí C#
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";

var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: Healthy\_Living,      Probability: 0.4144087
 Class: Medical\_Health,     Probability: 0.2108202
 Class: Science,                 Probability: 0.1584931

Klasifikace textu s taxonomií dokumentu pomocí C#

Taxonomie dokumentů klasifikuje obsah do různých tříd dokumentů, jako jsou reklamy, faktury, zprávy, životopisy, dopisy, e-maily atd. Následují kroky pro taxonomickou klasifikaci textu s taxonomií dokumentů pomocí C#.

  • Vytvořte instanci Classifier.
  • Načtěte text pro taxonomickou analýzu.
  • Definujte počet nejlepších výsledků jako výsledek klasifikace. (Volitelný)
  • Nastavte Taxonomie jako Dokumenty.
  • Získejte taxonomické skupiny voláním metody Classify s výše definovanými parametry.
  • Vytiskněte BestResults z klasifikační odpovědi metody Classify.

Následující zdrojový kód C# ukazuje, jak klasifikovat textový obsah a získat některé z jeho hlavních taxonomických kategorií pomocí taxonomie dokumentů.

/*
* Klasifikujte text pomocí taxonomie dokumentu pomocí C#
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";

var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: ADVE,      Probability: 0.9999645
 Class: Report,     Probability: 3.461805E-05

Získejte bezplatnou licenci

Můžete získat bezplatnou dočasnou licenci, abyste mohli používat API bez omezení hodnocení.

Závěr

Abych to shrnul, naučili jsme se klasifikovat různé druhy dokumentů pomocí různých taxonomií. V příkladech jsme klasifikovali text podle IAB-2 a taxonomie dokumentů pomocí C#. Po prostudování série příspěvků si můžete vytvořit svou vlastní klasifikační aplikaci .NET pro klasifikovat dokumenty a také text s různými taxonomiemi a konfiguracemi.

Další informace o rozhraní API naleznete v dokumentaci. V případě dotazů nás kontaktujte prostřednictvím fóra.

Viz také