Klasifikace je v zásadě přístup, ve kterém je text systematicky identifikován a poté organizován podle pravidel. Taxonomie definuje vědu o takové klasifikaci. Když se zabýváte hromadou textových dokumentů, je těžké najít téma jakéhokoli dokumentu až do taxonomické klasifikace obsahu. V tomto článku se dozvíte, jak programově klasifikovat dokumenty podle IAB-2 a taxonomii dokumentů pomocí C#.

Níže jsou uvedena následující témata:

.NET API pro taxonomickou klasifikaci dokumentů

GroupDocs.Classification poskytuje řešení klasifikace pro různé druhy aplikací. Jeho .NET API vám umožňuje klasifikovat dokumenty různých formátů souborů podle různých taxonomických kategorií v rámci vašich aplikací .NET. Pro klasifikaci dokumentů PDF a Word pomocí C# použijeme jeho GroupDocs.Classification for .NET API.

Můžete si stáhnout DLL nebo instalační program MSI z části ke stažení nebo nainstalovat API do vaší aplikace .NET prostřednictvím NuGet.

PM> Install-Package GroupDocs.Classification

Klasifikujte dokumenty pomocí taxonomie IAB-2 pomocí C#

IAB-2 kategorizuje obsah dokumentu do několika témat a poté jej klasifikuje na základě úrovně hloubky. Následují kroky k identifikaci taxonomické klasifikace dokumentů s taxonomie IAB-2 pomocí C#.

Následující zdrojový kód C# ukazuje, jak klasifikovat dokumenty pomocí taxonomie IAB-2 a získat některé z nejlepších výsledků klasifikace dokumentů.

/*
* Klasifikujte dokumenty (PDF, Word, ...) pomocí taxonomie IAB-2 pomocí C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Klasifikujte dokumenty pomocí taxonomie dokumentů pomocí C#

Taxonomie dokumentů se používá k identifikaci různých tříd dokumentů, jako jsou faktury, životopisy, formuláře, e-maily atd. Následují kroky k identifikaci taxonomické klasifikace dokumentů s taxonomií dokumentů pomocí jazyka C#.

Následující zdrojový kód C# ukazuje, jak klasifikovat dokumenty a získat některé z nejlepších taxonomických kategorií pomocí taxonomie dokumentů.

/*
* Klasifikujte dokumenty (PDF, Word, ...) pomocí taxonomie dokumentů pomocí C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Klasifikujte dokumenty chráněné heslem pomocí C#

Pokud je váš dokument zabezpečen heslem, můžete při klasifikaci zadat pouze přihlašovací údaje. Níže jsou uvedeny kroky pro klasifikaci dokumentů chráněných heslem pomocí C#

Následující fragment kódu ukazuje, jak klasifikovat dokumenty chráněné heslem a získat nejlepší taxonomickou kategorii pomocí výchozí taxonomie (IAB-2).

/*
* Klasifikujte dokumenty chráněné heslem pomocí C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

Výchozí hodnoty pro taxonomii by byly IAB-2 a počet nejlepších výsledků by byl 1.

Získejte bezplatnou licenci

Můžete získat bezplatnou dočasnou licenci, abyste mohli používat API bez omezení hodnocení.

Závěr

Na závěr jsme se naučili klasifikovat různé druhy dokumentů pomocí různých taxonomií. Přesněji jsme klasifikovali dokumenty PDF podle IAB-2 a taxonomie dokumentů pomocí C#. Dále jsme diskutovali o tom, jak můžeme klasifikovat heslem chráněné dokumenty aplikace Word pomocí výchozí nebo specifické taxonomické klasifikace. Nyní můžete integrovat funkci klasifikace dokumentů do vaší aplikace .NET.

Další informace o rozhraní API naleznete v dokumentaci. V případě dotazů nás kontaktujte prostřednictvím fóra.

Viz také