Eine Klassifikation ist im Grunde ein Ansatz, bei dem Text systematisch identifiziert und dann nach Regeln organisiert wird. Die Taxonomie definiert die Wissenschaft einer solchen Klassifikation. Wenn Sie es mit einer Reihe von Textdokumenten zu tun haben, wird es schwierig, ein Thema für ein Dokument zu finden, bis die taxonomische Klassifizierung des Inhalts erfolgt ist. In diesem Artikel erfahren Sie, wie Sie mit C# Dokumente programmgesteuert gemäß IAB-2 klassifizieren und die Taxonomie von Dokumenten verwenden.

Nachfolgend werden folgende Themen behandelt:

.NET-API für die taxonomische Klassifizierung von Dokumenten

GroupDocs.Classification bietet die Klassifizierungslösung für verschiedene Arten von Anwendungen. Seine .NET-API ermöglicht es Ihnen, Dokumente verschiedener Dateiformate nach verschiedenen taxonomischen Kategorien innerhalb Ihrer .NET-Anwendungen zu klassifizieren. Wir werden dessen API GroupDocs.Classification for .NET für die Klassifizierung von PDF- und Word-Dokumenten mit C# verwenden.

Sie können das DLLs- oder MSI-Installationsprogramm aus dem Download-Bereich herunterladen oder die API in Ihrer .NET-Anwendung über NuGet installieren.

PM> Install-Package GroupDocs.Classification

Dokumente mit IAB-2-Taxonomie mit C# klassifizieren

IAB-2 kategorisiert den Inhalt des Dokuments in mehrere Themen und klassifiziert ihn dann basierend auf der Tiefe. Im Folgenden sind die Schritte zum Identifizieren der taxonomischen Klassifizierung von Dokumenten mit IAB-2-Taxonomie mithilfe von C# aufgeführt.

  • Instanziieren Sie den Klassifikator mit der Klasse Classifier.
  • Definieren Sie das Eingabedokument und den Eingabeordner.
  • Definieren Sie die Taxonomie als IAB2.
  • Legen Sie die Anzahl für die ersten paar besten Ergebnisse in der Antwort fest. (Optional)
  • Rufen Sie die taxonomischen Kategorien ab, indem Sie die Methode Classify mit den definierten Parametern aufrufen.
  • Drucken Sie den Best Class Name und die Probability unter Verwendung der Classification Response der Classify-Methode.

Der folgende C#-Quellcode zeigt, wie Sie Dokumente mithilfe der IAB-2-Taxonomie klassifizieren und einige der besten Ergebnisse zur Dokumentklassifizierung erhalten.

/*
* Klassifizieren Sie Dokumente (PDF, Word, ...) mit IAB-2-Taxonomie mit C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Klassifizieren Sie Dokumente mit Dokumententaxonomie mit C#

Die Dokumententaxonomie wird verwendet, um verschiedene Dokumentenklassen zu identifizieren, z. B. Rechnungen, Lebensläufe, Formulare, E-Mails usw. Im Folgenden sind die Schritte zum Identifizieren der taxonomischen Klassifizierung von Dokumenten mit Dokumententaxonomie unter Verwendung von C# aufgeführt.

  • Instanziieren Sie den Klassifikator mit der Klasse Classifier.
  • Legen Sie das Eingabedokument und den Ordner fest.
  • Definieren Sie die Taxonomie als Dokumente.
  • Legen Sie den Zähler für die Anzahl der Top-Ergebnisse in der Antwort fest. (Optional)
  • Rufen Sie die taxonomischen Gruppen ab, indem Sie die Methode Classify mit den oben definierten Parametern aufrufen.
  • Drucken Sie den Namen der besten Klasse und die Wahrscheinlichkeit unter Verwendung der Klassifizierungsantwort der Methode „Klassifizieren“.

Der folgende C#-Quellcode zeigt, wie Sie Dokumente klassifizieren und einige der besten taxonomischen Kategorien mithilfe von Dokumenttaxonomie erhalten.

/*
* Klassifizieren Sie Dokumente (PDF, Word, ...) mit Dokumententaxonomie mit C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Klassifizieren Sie passwortgeschützte Dokumente mit C#

Wenn Ihr Dokument mit einem Passwort geschützt ist, können Sie beim Klassifizieren einfach die Anmeldeinformationen angeben. Im Folgenden sind die Schritte zur Klassifizierung passwortgeschützter Dokumente mit C# aufgeführt.

  • Instanziiere den Classifier.
  • Definieren Sie das Eingabedokument, den Eingabeordner und das Passwort des geschützten Dokuments.
  • Definieren Sie die Taxonomie als Dokumente.
  • Rufen Sie die taxonomische Gruppe ab, indem Sie die Methode Classify mit den definierten Parametern aufrufen.
  • Erhalten Sie den Best Class Name und die Probability aus der response der Classify-Methode.

Das folgende Code-Snippet zeigt, wie Sie passwortgeschützte Dokumente klassifizieren und die beste taxonomische Kategorie mithilfe der Standardtaxonomie (IAB-2) erhalten.

/*
* Klassifizieren Sie passwortgeschützte Dokumente mit C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

Die Standardwerte für die Taxonomie wären IAB-2 und die Anzahl der besten Ergebnisse wäre 1.

Holen Sie sich eine kostenlose Lizenz

Sie können eine kostenlose temporäre Lizenz erhalten, um die API ohne die Evaluierungseinschränkungen zu verwenden.

Fazit

Abschließend haben wir gelernt, verschiedene Arten von Dokumenten mithilfe verschiedener Taxonomien zu klassifizieren. Genauer gesagt haben wir PDF-Dokumente nach IAB-2 klassifiziert und Taxonomien mit C# dokumentiert. Außerdem haben wir besprochen, wie wir passwortgeschützte Word-Dokumente mit einer standardmäßigen oder spezifischen taxonomischen Klassifizierung klassifizieren können. Jetzt können Sie die Dokumentklassifizierungsfunktion in Ihre .NET-Anwendung integrieren.

Weitere Informationen zur API finden Sie in der Dokumentation. Bei Fragen kontaktieren Sie uns über das Forum.

Siehe auch