Wcześniej omówiliśmy, w jaki sposób możemy zautomatyzować analizę i programowo klasyfikować kompletne dokumenty. Często wymagane jest sklasyfikowanie tylko części dokumentu lub tylko kilku stwierdzeń. W tym artykule zidentyfikujemy najlepsze możliwe kategorie taksonomiczne wybranego tekstu. Nauczymy się, jak klasyfikować tekst zgodnie z IAB-2 i dokumentować taksonomie za pomocą C#.

Poniżej omówiono następujące tematy:

Interfejs API platformy .NET do klasyfikacji taksonomicznej tekstu

GroupDocs.Classification for .NET to interfejs API, który umożliwia różne techniki klasyfikacji treści tekstowych w aplikacjach .NET. Użyjemy tego API, aby znaleźć najlepsze możliwe kategorie taksonomiczne dostarczonego tekstu, używając C# w przykładach.

Możesz pobrać instalator DLL lub MSI z sekcji pobierania lub zainstalować interfejs API w swojej aplikacji .NET za pośrednictwem NuGet.

PM> Install-Package GroupDocs.Classification

Klasyfikacja tekstu z taksonomią IAB-2 przy użyciu C#

IAB-2 kategoryzuje treści na określone kategorie taksonomiczne, a następnie klasyfikuje je na podstawie analizy. Poniżej przedstawiono kroki klasyfikacji taksonomicznej tekstu za pomocą taksonomii IAB-2 przy użyciu języka C#.

  • Utwórz instancję klasyfikatora za pomocą klasy Classifier.
  • Zdefiniuj tekst do analizy taksonomicznej.
  • Ustaw Taksonomię jako IAB2.
  • Ustaw liczbę najlepszych wyników liczonych jako wynik klasyfikacji. (Opcjonalny)
  • Uzyskaj kategorie taksonomiczne podanego tekstu, wywołując metodę Classify ze zdefiniowanymi parametrami.
  • Wydrukuj BestResults z odpowiedzi na klasyfikację metody Classify.

Poniższy kod źródłowy C# pokazuje, jak klasyfikować tekst przy użyciu taksonomii IAB-2 i uzyskać najlepsze kategorie z najlepszym dopasowaniem.

/*
* Klasyfikuj tekst za pomocą taksonomii IAB-2 przy użyciu języka C#
*/
Classifier classifier = new Classifier();
string statement = "Medicine is an important part of our lives";

var response = classifier.Classify(statement, 3, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: Healthy\_Living,      Probability: 0.4144087
 Class: Medical\_Health,     Probability: 0.2108202
 Class: Science,                 Probability: 0.1584931

Klasyfikacja tekstu z taksonomią dokumentów przy użyciu C#

Taksonomia dokumentów klasyfikuje treść na różne klasy dokumentów, takie jak reklamy, faktury, wiadomości, CV, listy, e-maile itp. Poniżej przedstawiono kroki klasyfikacji taksonomicznej tekstu za pomocą taksonomii dokumentów przy użyciu języka C#.

  • Utwórz instancję Klasyfikatora.
  • Załaduj tekst do analizy taksonomicznej.
  • Zdefiniuj liczbę najlepszych wyników liczonych w wyniku klasyfikacji. (Opcjonalny)
  • Ustaw Taksonomię jako Dokumenty.
  • Uzyskaj grupy taksonomiczne, wywołując metodę Classify z parametrami zdefiniowanymi powyżej.
  • Wydrukuj BestResults z odpowiedzi na klasyfikację metody Classify.

Poniższy kod źródłowy C# pokazuje, jak klasyfikować zawartość tekstową i pobierać niektóre z jej najważniejszych kategorii taksonomicznych przy użyciu taksonomii dokumentów.

/*
* Klasyfikuj tekst za pomocą taksonomii dokumentów przy użyciu języka C#
*/
Classifier classifier = new Classifier();
string statement = "Sooner or later technology will overcome labor work";

var response = classifier.Classify(statement, 2, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \tProbability: {bestResult.Probability}"));
 Class: ADVE,      Probability: 0.9999645
 Class: Report,     Probability: 3.461805E-05

Uzyskaj bezpłatną licencję

Możesz uzyskać bezpłatną tymczasową licencję, aby korzystać z API bez ograniczeń ewaluacyjnych.

Wniosek

Podsumowując, nauczyliśmy się klasyfikować różnego rodzaju dokumenty za pomocą różnych taksonomii. W przykładach sklasyfikowaliśmy tekst zgodnie z IAB-2, a taksonomie dokumentów przy użyciu języka C#. Po przejrzeniu serii postów możesz zbudować własną aplikację klasyfikującą .NET do klasyfikowania dokumentów, a także tekstu z różnymi taksonomiami i konfiguracjami.

Więcej informacji na temat interfejsu API można znaleźć w dokumentacji. W przypadku pytań skontaktuj się z nami za pośrednictwem forum.

Zobacz też