Klasifikace je v zásadě přístup, ve kterém je text systematicky identifikován a poté organizován podle pravidel. Taxonomie definuje vědu o takové klasifikaci. Když se zabýváte hromadou textových dokumentů, je těžké najít téma jakéhokoli dokumentu až do taxonomické klasifikace obsahu. V tomto článku se dozvíte, jak programově klasifikovat dokumenty podle IAB-2 a taxonomii dokumentů pomocí C#.
Níže jsou uvedena následující témata:
- .NET API pro taxonomickou klasifikaci
- Klasifikace dokumentů s taxonomií IAB-2
- Klasifikujte dokumenty pomocí taxonomie dokumentů
- Klasifikujte dokumenty chráněné heslem
.NET API pro taxonomickou klasifikaci dokumentů
GroupDocs.Classification poskytuje řešení klasifikace pro různé druhy aplikací. Jeho .NET API vám umožňuje klasifikovat dokumenty různých formátů souborů podle různých taxonomických kategorií v rámci vašich aplikací .NET. Pro klasifikaci dokumentů PDF a Word pomocí C# použijeme jeho GroupDocs.Classification for .NET API.
Můžete si stáhnout DLL nebo instalační program MSI z části ke stažení nebo nainstalovat API do vaší aplikace .NET prostřednictvím NuGet.
PM> Install-Package GroupDocs.Classification
Klasifikujte dokumenty pomocí taxonomie IAB-2 pomocí C#
IAB-2 kategorizuje obsah dokumentu do několika témat a poté jej klasifikuje na základě úrovně hloubky. Následují kroky k identifikaci taxonomické klasifikace dokumentů s taxonomie IAB-2 pomocí C#.
- Vytvořte instanci klasifikátoru pomocí třídy Classifier.
- Definujte vstupní dokument a vstupní složku.
- Definujte taxonomii jako IAB2.
- Nastavte počet prvních několika nejlepších výsledků v odpovědi. (Volitelný)
- Taxonomické kategorie získáte voláním metody Classify s definovanými parametry.
- Vytiskněte Nejlepší název třídy a Pravděpodobnost pomocí klasifikační odpověď metody klasifikace.
Následující zdrojový kód C# ukazuje, jak klasifikovat dokumenty pomocí taxonomie IAB-2 a získat některé z nejlepších výsledků klasifikace dokumentů.
/*
* Klasifikujte dokumenty (PDF, Word, ...) pomocí taxonomie IAB-2 pomocí C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: Technology\_&Computing, Probability: 0.8188434
Class: Video\_Gaming, Probability: 0.12686
Class: Hobbies&\_Interests, Probability: 0.03112753
Class: Music\_and\_Audio, Probability: 0.006756512
Klasifikujte dokumenty pomocí taxonomie dokumentů pomocí C#
Taxonomie dokumentů se používá k identifikaci různých tříd dokumentů, jako jsou faktury, životopisy, formuláře, e-maily atd. Následují kroky k identifikaci taxonomické klasifikace dokumentů s taxonomií dokumentů pomocí jazyka C#.
- Vytvořte instanci klasifikátoru pomocí třídy Classifier.
- Nastavte vstupní dokument a složku.
- Definujte taxonomii jako dokumenty.
- Nastavte počet pro počet nejlepších výsledků v odpovědi. (Volitelný)
- Získejte taxonomické skupiny voláním metody Classify s výše definovanými parametry.
- Vytiskněte Nejlepší název třídy a Pravděpodobnost pomocí klasifikační odpověď metody klasifikace.
Následující zdrojový kód C# ukazuje, jak klasifikovat dokumenty a získat některé z nejlepších taxonomických kategorií pomocí taxonomie dokumentů.
/*
* Klasifikujte dokumenty (PDF, Word, ...) pomocí taxonomie dokumentů pomocí C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.3874436
Class: Resume, Probability: 0.2438204
Class: News, Probability: 0.1357582
Class: Memo, Probability: 0.0641943
Klasifikujte dokumenty chráněné heslem pomocí C#
Pokud je váš dokument zabezpečen heslem, můžete při klasifikaci zadat pouze přihlašovací údaje. Níže jsou uvedeny kroky pro klasifikaci dokumentů chráněných heslem pomocí C#
- Vytvořte instanci Classifier.
- Definujte vstupní dokument, vstupní složku a heslo chráněného dokumentu.
- Definujte Taxonomie jako dokumenty.
- Získejte taxonomickou skupinu voláním metody Classify s definovanými parametry.
- Získejte Nejlepší název třídy a Pravděpodobnost z odpovědi metody klasifikace.
Následující fragment kódu ukazuje, jak klasifikovat dokumenty chráněné heslem a získat nejlepší taxonomickou kategorii pomocí výchozí taxonomie (IAB-2).
/*
* Klasifikujte dokumenty chráněné heslem pomocí C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests, Probability: 0.4548415
Výchozí hodnoty pro taxonomii by byly IAB-2 a počet nejlepších výsledků by byl 1.
Získejte bezplatnou licenci
Můžete získat bezplatnou dočasnou licenci, abyste mohli používat API bez omezení hodnocení.
Závěr
Na závěr jsme se naučili klasifikovat různé druhy dokumentů pomocí různých taxonomií. Přesněji jsme klasifikovali dokumenty PDF podle IAB-2 a taxonomie dokumentů pomocí C#. Dále jsme diskutovali o tom, jak můžeme klasifikovat heslem chráněné dokumenty aplikace Word pomocí výchozí nebo specifické taxonomické klasifikace. Nyní můžete integrovat funkci klasifikace dokumentů do vaší aplikace .NET.
Další informace o rozhraní API naleznete v dokumentaci. V případě dotazů nás kontaktujte prostřednictvím fóra.