Dříve jsme diskutovali o tom, jak můžeme automatizovat analýzu a klasifikovat kompletní dokumenty programově. Často se vyžaduje klasifikace pouze některé části dokumentu nebo pouze několika prohlášení. V tomto článku identifikujeme nejlepší možné taxonomické kategorie vybraného textu. Dozvíme se, jak můžeme klasifikovat text podle IAB-2 a dokumentovat taxonomie pomocí C#.
Níže jsou uvedena následující témata:
- .NET API pro taxonomickou klasifikaci textu
- Klasifikace textu s taxonomií IAB-2 pomocí C#
- Klasifikace textu s taxonomií dokumentu pomocí C#
.NET API pro taxonomickou klasifikaci textu
GroupDocs.Classification for .NET je API, které umožňuje různé techniky klasifikace textového obsahu v aplikacích .NET. Toto API použijeme k nalezení nejlepších možných taxonomických kategorií poskytnutého textu pomocí C# v příkladech.
Můžete si stáhnout DLL nebo instalační program MSI z části ke stažení nebo nainstalovat API do vaší aplikace .NET prostřednictvím NuGet.
PM> Install-Package GroupDocs.Classification
Klasifikace textu s taxonomií IAB-2 pomocí C#
IAB-2 kategorizuje obsah do definovaných taxonomických kategorií a poté jej klasifikuje na základě analýzy. Následují kroky pro taxonomickou klasifikaci textu s IAB-2 taxonomie pomocí C#.
- Vytvořte instanci klasifikátoru pomocí třídy Classifier.
- Definujte text pro taxonomickou analýzu.
- Nastavte Taxonomie jako IAB2.
- Nastavte počet nejlepších výsledků jako výsledek klasifikace. (Volitelný)
- Získejte taxonomické kategorie poskytnutého textu voláním metody Classify s definovanými parametry.
- Vytiskněte BestResults z klasifikační odpovědi metody Classify.
Následující zdrojový kód C# ukazuje, jak klasifikovat text pomocí taxonomie IAB-2 a získat nejlepší kategorie s nejlepší shodou.
/*
* Klasifikace textu pomocí taxonomie IAB-2 pomocí C#
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";
var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
Class: Healthy\_Living, Probability: 0.4144087
Class: Medical\_Health, Probability: 0.2108202
Class: Science, Probability: 0.1584931
Klasifikace textu s taxonomií dokumentu pomocí C#
Taxonomie dokumentů klasifikuje obsah do různých tříd dokumentů, jako jsou reklamy, faktury, zprávy, životopisy, dopisy, e-maily atd. Následují kroky pro taxonomickou klasifikaci textu s taxonomií dokumentů pomocí C#.
- Vytvořte instanci Classifier.
- Načtěte text pro taxonomickou analýzu.
- Definujte počet nejlepších výsledků jako výsledek klasifikace. (Volitelný)
- Nastavte Taxonomie jako Dokumenty.
- Získejte taxonomické skupiny voláním metody Classify s výše definovanými parametry.
- Vytiskněte BestResults z klasifikační odpovědi metody Classify.
Následující zdrojový kód C# ukazuje, jak klasifikovat textový obsah a získat některé z jeho hlavních taxonomických kategorií pomocí taxonomie dokumentů.
/*
* Klasifikujte text pomocí taxonomie dokumentu pomocí C#
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";
var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.9999645
Class: Report, Probability: 3.461805E-05
Získejte bezplatnou licenci
Můžete získat bezplatnou dočasnou licenci, abyste mohli používat API bez omezení hodnocení.
Závěr
Abych to shrnul, naučili jsme se klasifikovat různé druhy dokumentů pomocí různých taxonomií. V příkladech jsme klasifikovali text podle IAB-2 a taxonomie dokumentů pomocí C#. Po prostudování série příspěvků si můžete vytvořit svou vlastní klasifikační aplikaci .NET pro klasifikovat dokumenty a také text s různými taxonomiemi a konfiguracemi.
Další informace o rozhraní API naleznete v dokumentaci. V případě dotazů nás kontaktujte prostřednictvím fóra.