Een classificatie is in feite een aanpak waarbij tekst systematisch wordt geïdentificeerd en vervolgens volgens regels wordt georganiseerd. Taxonomie definieert de wetenschap van een dergelijke classificatie. Als je te maken hebt met een heleboel tekstdocumenten, wordt het moeilijk om een onderwerp van een document te vinden tot aan de taxonomische classificatie van de inhoud. In dit artikel leert u hoe u documenten programmatisch classificeert volgens IAB-2 en hoe u taxonomie documenteert met behulp van C#.

De volgende onderwerpen komen hieronder aan bod:

.NET API voor taxonomische classificatie van documenten

GroupDocs.Classification biedt de classificatieoplossing voor verschillende soorten toepassingen. Met de .NET API kunt u documenten van verschillende bestandsindelingen classificeren volgens verschillende taxonomische categorieën binnen uw .NET-toepassingen. We zullen de GroupDocs.Classification for .NET API gebruiken voor de classificatie van PDF- en Word-documenten met behulp van C#.

U kunt de DLL’s of het MSI-installatieprogramma downloaden van de downloadsectie of de API in uw .NET-toepassing installeren via NuGet.

PM> Install-Package GroupDocs.Classification

Documenten classificeren met IAB-2-taxonomie met behulp van C#

IAB-2 categoriseert de inhoud van het document in meerdere onderwerpen en classificeert het vervolgens op basis van het diepteniveau. Hieronder volgen de stappen om de taxonomische classificatie van documenten te identificeren met IAB-2 taxonomie met behulp van C#.

  • Instantiseer de classificatie met behulp van de klasse Classifier.
  • Definieer het invoerdocument en de invoermap.
  • Definieer de Taxonomie als IAB2.
  • Stel het aantal in voor de eerste paar beste resultaten in het antwoord. (Optioneel)
  • Haal de taxonomische categorieën op door de methode Classify aan te roepen met de gedefinieerde parameters.
  • Druk de Best Class Name en Probability af met behulp van de classificatierespons van de Classify-methode.

De volgende C#-broncode laat zien hoe u documenten kunt classificeren met behulp van de IAB-2-taxonomie en enkele van de beste documentclassificatieresultaten kunt verkrijgen.

/*
* Classificeer documenten (PDF, Word, ...) met IAB-2 Taxonomy met behulp van C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

Documenten classificeren met documenttaxonomie met behulp van C#

Documententaxonomie wordt gebruikt om verschillende documentklassen te identificeren, zoals facturen, cv’s, formulieren, e-mails, enz. Hieronder volgen de stappen om de taxonomische classificatie van documenten te identificeren met documenttaxonomie met behulp van C#.

  • Instantiseer de classificatie met behulp van de klasse Classifier.
  • Stel het invoerdocument en de map in.
  • Definieer de Taxonomie als Documenten.
  • Stel het aantal in voor het aantal beste resultaten in het antwoord. (Optioneel)
  • Haal de taxonomische groepen op door de methode Classify aan te roepen met de hierboven gedefinieerde parameters.
  • Druk de Best Class Name en Probability af met behulp van de classificatierespons van de Classify-methode.

De volgende C#-broncode laat zien hoe u documenten kunt classificeren en enkele van de beste taxonomische categorieën kunt verkrijgen met behulp van documenttaxonomie.

/*
* Classificeer documenten (PDF, Word, ...) met Document Taxonomy met behulp van C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

Classificeer met een wachtwoord beveiligde documenten met behulp van C#

Als uw document is beveiligd met een wachtwoord, hoeft u alleen de inloggegevens op te geven tijdens het classificeren. Hieronder volgen de stappen voor de classificatie van met een wachtwoord beveiligde documenten met behulp van C#

  • Maak een instantiëring van de Classifier.
  • Definieer het invoerdocument, de invoermap en het wachtwoord van het beveiligde document.
  • Definieer de Taxonomie als Documenten.
  • Haal de taxonomische groep op door de methode Classify aan te roepen met de gedefinieerde parameters.
  • Haal de Best Class Name en Probability op uit de response van de Classify-methode.

Het volgende codefragment laat zien hoe u met een wachtwoord beveiligde documenten classificeert en de beste taxonomische categorie krijgt met behulp van de standaardtaxonomie (IAB-2).

/*
* Classificeer met een wachtwoord beveiligde documenten met behulp van C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

De standaardwaarden voor de taxonomie zijn IAB-2 en het aantal beste resultaten is 1.

Ontvang een gratis licentie

U kunt een gratis tijdelijke licentie krijgen om de API te gebruiken zonder de evaluatiebeperkingen.

Conclusie

Tot slot hebben we geleerd verschillende soorten documenten te classificeren met behulp van verschillende taxonomieën. Om preciezer te zijn, we classificeerden PDF-documenten volgens IAB-2 en documenttaxonomieën met behulp van C#. Verder hebben we besproken hoe we met een wachtwoord beveiligde Word-documenten kunnen classificeren met standaard of specifieke taxonomische classificatie. Nu kunt u de functie voor documentclassificatie integreren in uw .NET-toepassing.

Ga voor meer informatie over de API naar de documentatie. Neem voor vragen contact met ons op via het forum.

Zie ook