Klasyfikacja jest zasadniczo podejściem, w którym tekst jest systematycznie identyfikowany, a następnie organizowany zgodnie z regułami. Taksonomia określa naukę takiej klasyfikacji. Kiedy masz do czynienia z wieloma dokumentami tekstowymi, trudno jest znaleźć temat dowolnego dokumentu, aż do taksonomicznej klasyfikacji treści. W tym artykule dowiesz się, jak programowo klasyfikować dokumenty zgodnie z IAB-2 oraz taksonomię dokumentów przy użyciu języka C#.

Poniżej omówiono następujące tematy:

Interfejs API platformy .NET do taksonomicznej klasyfikacji dokumentów

GroupDocs.Classification zapewnia rozwiązanie do klasyfikacji dla różnych rodzajów aplikacji. Jego interfejs API .NET umożliwia klasyfikowanie dokumentów o różnych formatach plików według różnych kategorii taksonomicznych w aplikacjach .NET. Użyjemy jego API GroupDocs.Classification for .NET do klasyfikacji dokumentów PDF i Word przy użyciu języka C#.

Możesz pobrać instalator DLL lub MSI z sekcji pobierania lub zainstalować interfejs API w swojej aplikacji .NET za pośrednictwem NuGet.

PM> Install-Package GroupDocs.Classification

Klasyfikuj dokumenty za pomocą taksonomii IAB-2 przy użyciu języka C#

IAB-2 dzieli treść dokumentu na wiele tematów, a następnie klasyfikuje ją na podstawie poziomu głębi. Poniżej przedstawiono kroki umożliwiające zidentyfikowanie klasyfikacji taksonomicznej dokumentów za pomocą taksonomii IAB-2 przy użyciu języka C#.

Poniższy kod źródłowy C# pokazuje, jak klasyfikować dokumenty przy użyciu taksonomii IAB-2 i uzyskać niektóre z najlepszych wyników klasyfikacji dokumentów.

/*
* Klasyfikuj dokumenty (PDF, Word, ...) za pomocą taksonomii IAB-2 przy użyciu języka C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Klasyfikuj dokumenty za pomocą taksonomii dokumentów przy użyciu języka C#

Taksonomia dokumentów służy do identyfikowania różnych klas dokumentów, takich jak faktury, życiorysy, formularze, e-maile itp. Poniżej opisano kroki identyfikacji klasyfikacji taksonomicznej dokumentów za pomocą taksonomii dokumentów przy użyciu języka C#.

Poniższy kod źródłowy języka C# pokazuje, jak klasyfikować dokumenty i uzyskiwać jedne z najlepszych kategorii taksonomicznych przy użyciu taksonomii dokumentów.

/*
* Klasyfikuj dokumenty (PDF, Word, ...) za pomocą taksonomii dokumentów przy użyciu języka C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Klasyfikuj dokumenty chronione hasłem za pomocą C#

Jeśli Twój dokument jest zabezpieczony hasłem, możesz po prostu podać dane uwierzytelniające podczas klasyfikacji. Poniżej przedstawiono kroki klasyfikacji dokumentów chronionych hasłem przy użyciu języka C#

Poniższy fragment kodu pokazuje, jak klasyfikować dokumenty chronione hasłem i uzyskać najlepszą kategorię taksonomiczną przy użyciu domyślnej taksonomii (IAB-2).

/*
* Klasyfikuj dokumenty chronione hasłem za pomocą języka C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

Wartości domyślne dla taksonomii to IAB-2, a liczba najlepszych wyników to 1.

Uzyskaj bezpłatną licencję

Możesz uzyskać bezpłatną tymczasową licencję, aby korzystać z API bez ograniczeń ewaluacyjnych.

Wniosek

Podsumowując, nauczyliśmy się klasyfikować różne rodzaje dokumentów przy użyciu różnych taksonomii. Mówiąc dokładniej, sklasyfikowaliśmy dokumenty PDF zgodnie z IAB-2 i taksonomie dokumentów przy użyciu języka C#. Ponadto omówiliśmy, w jaki sposób możemy klasyfikować dokumenty programu Word chronione hasłem za pomocą domyślnej lub określonej klasyfikacji taksonomicznej. Teraz możesz zintegrować funkcję klasyfikacji dokumentów z aplikacją .NET.

Więcej informacji na temat interfejsu API można znaleźć w dokumentacji. W przypadku pytań skontaktuj się z nami za pośrednictwem forum.

Zobacz też