Klasyfikacja jest zasadniczo podejściem, w którym tekst jest systematycznie identyfikowany, a następnie organizowany zgodnie z regułami. Taksonomia określa naukę takiej klasyfikacji. Kiedy masz do czynienia z wieloma dokumentami tekstowymi, trudno jest znaleźć temat dowolnego dokumentu, aż do taksonomicznej klasyfikacji treści. W tym artykule dowiesz się, jak programowo klasyfikować dokumenty zgodnie z IAB-2 oraz taksonomię dokumentów przy użyciu języka C#.
Poniżej omówiono następujące tematy:
- Interfejs API platformy .NET do klasyfikacji taksonomicznej
- Klasyfikacja dokumentów za pomocą taksonomii IAB-2
- Klasyfikuj dokumenty za pomocą taksonomii dokumentów
- Klasyfikuj dokumenty chronione hasłem
Interfejs API platformy .NET do taksonomicznej klasyfikacji dokumentów
GroupDocs.Classification zapewnia rozwiązanie do klasyfikacji dla różnych rodzajów aplikacji. Jego interfejs API .NET umożliwia klasyfikowanie dokumentów o różnych formatach plików według różnych kategorii taksonomicznych w aplikacjach .NET. Użyjemy jego API GroupDocs.Classification for .NET do klasyfikacji dokumentów PDF i Word przy użyciu języka C#.
Możesz pobrać instalator DLL lub MSI z sekcji pobierania lub zainstalować interfejs API w swojej aplikacji .NET za pośrednictwem NuGet.
PM> Install-Package GroupDocs.Classification
Klasyfikuj dokumenty za pomocą taksonomii IAB-2 przy użyciu języka C#
IAB-2 dzieli treść dokumentu na wiele tematów, a następnie klasyfikuje ją na podstawie poziomu głębi. Poniżej przedstawiono kroki umożliwiające zidentyfikowanie klasyfikacji taksonomicznej dokumentów za pomocą taksonomii IAB-2 przy użyciu języka C#.
- Utwórz instancję klasyfikatora za pomocą klasy Classifier.
- Zdefiniuj dokument wejściowy i folder wejściowy.
- Zdefiniuj Taksonomię jako IAB2.
- Ustaw liczbę pierwszych kilku najlepszych wyników w odpowiedzi. (Opcjonalny)
- Pobierz kategorie taksonomiczne, wywołując metodę Classify ze zdefiniowanymi parametrami.
- Wydrukuj Nazwę najlepszej klasy i Prawdopodobieństwo, używając odpowiedzi na klasyfikację metody Classify.
Poniższy kod źródłowy C# pokazuje, jak klasyfikować dokumenty przy użyciu taksonomii IAB-2 i uzyskać niektóre z najlepszych wyników klasyfikacji dokumentów.
/*
* Klasyfikuj dokumenty (PDF, Word, ...) za pomocą taksonomii IAB-2 przy użyciu języka C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: Technology\_&Computing, Probability: 0.8188434
Class: Video\_Gaming, Probability: 0.12686
Class: Hobbies&\_Interests, Probability: 0.03112753
Class: Music\_and\_Audio, Probability: 0.006756512
Klasyfikuj dokumenty za pomocą taksonomii dokumentów przy użyciu języka C#
Taksonomia dokumentów służy do identyfikowania różnych klas dokumentów, takich jak faktury, życiorysy, formularze, e-maile itp. Poniżej opisano kroki identyfikacji klasyfikacji taksonomicznej dokumentów za pomocą taksonomii dokumentów przy użyciu języka C#.
- Utwórz instancję klasyfikatora za pomocą klasy Classifier.
- Ustaw dokument wejściowy i folder.
- Zdefiniuj Taksonomię jako Dokumenty.
- Ustaw liczbę najlepszych wyników w odpowiedzi. (Opcjonalny)
- Uzyskaj grupy taksonomiczne, wywołując metodę Classify z parametrami zdefiniowanymi powyżej.
- Wydrukuj Nazwę najlepszej klasy i Prawdopodobieństwo, używając odpowiedzi na klasyfikację metody Classify.
Poniższy kod źródłowy języka C# pokazuje, jak klasyfikować dokumenty i uzyskiwać jedne z najlepszych kategorii taksonomicznych przy użyciu taksonomii dokumentów.
/*
* Klasyfikuj dokumenty (PDF, Word, ...) za pomocą taksonomii dokumentów przy użyciu języka C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.3874436
Class: Resume, Probability: 0.2438204
Class: News, Probability: 0.1357582
Class: Memo, Probability: 0.0641943
Klasyfikuj dokumenty chronione hasłem za pomocą C#
Jeśli Twój dokument jest zabezpieczony hasłem, możesz po prostu podać dane uwierzytelniające podczas klasyfikacji. Poniżej przedstawiono kroki klasyfikacji dokumentów chronionych hasłem przy użyciu języka C#
- Utwórz instancję Klasyfikatora.
- Zdefiniuj dokument wejściowy, folder wejściowy i hasło chronionego dokumentu.
- Zdefiniuj Taksonomię jako Dokumenty.
- Pobierz grupę taksonomiczną, wywołując metodę Classify ze zdefiniowanymi parametrami.
- Uzyskaj Najlepszą nazwę klasy i Prawdopodobieństwo z odpowiedzi metody Classify.
Poniższy fragment kodu pokazuje, jak klasyfikować dokumenty chronione hasłem i uzyskać najlepszą kategorię taksonomiczną przy użyciu domyślnej taksonomii (IAB-2).
/*
* Klasyfikuj dokumenty chronione hasłem za pomocą języka C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests, Probability: 0.4548415
Wartości domyślne dla taksonomii to IAB-2, a liczba najlepszych wyników to 1.
Uzyskaj bezpłatną licencję
Możesz uzyskać bezpłatną tymczasową licencję, aby korzystać z API bez ograniczeń ewaluacyjnych.
Wniosek
Podsumowując, nauczyliśmy się klasyfikować różne rodzaje dokumentów przy użyciu różnych taksonomii. Mówiąc dokładniej, sklasyfikowaliśmy dokumenty PDF zgodnie z IAB-2 i taksonomie dokumentów przy użyciu języka C#. Ponadto omówiliśmy, w jaki sposób możemy klasyfikować dokumenty programu Word chronione hasłem za pomocą domyślnej lub określonej klasyfikacji taksonomicznej. Teraz możesz zintegrować funkcję klasyfikacji dokumentów z aplikacją .NET.
Więcej informacji na temat interfejsu API można znaleźć w dokumentacji. W przypadku pytań skontaktuj się z nami za pośrednictwem forum.