סיווג הוא בעצם גישה שבה טקסט מזוהה באופן שיטתי ולאחר מכן מאורגן על פי כללים. הטקסונומיה מגדירה את המדע של סיווג כזה. כאשר אתה מתמודד עם חבורה של מסמכים טקסטואליים, קשה למצוא נושא של כל מסמך עד לסיווג הטקסונומי של התוכן. במאמר זה תלמדו כיצד לסווג מסמכים באופן פרוגרמטי לפי IAB-2 ולתעד טקסונומיה באמצעות C#.

הנושאים הבאים מכוסים להלן:

.NET API לסיווג טקסונומי של מסמכים

GroupDocs.Classification מספק את פתרון הסיווג עבור סוגים שונים של יישומים. ה-.NET API שלו מאפשר לך לסווג מסמכים בפורמטים שונים של קבצים לפי קטגוריות טקסונומיות שונות בתוך יישומי ה-.NET שלך. נשתמש ב-GroupDocs.Classification for .NET API עבור סיווג מסמכי PDF ו-Word באמצעות C#.

אתה יכול להוריד את קובצי ה-DLL או ה-MSI מתקין מסעיף ההורדות או להתקין את ה-API באפליקציית NET שלך דרך NuGet.

PM> Install-Package GroupDocs.Classification

סיווג מסמכים עם IAB-2 Taxonomy באמצעות C#

IAB-2 מסווג את תוכן המסמך למספר נושאים ולאחר מכן מסווג אותו על סמך רמת העומק. להלן השלבים לזיהוי הסיווג הטקסונומי של מסמכים עם טקסונומיה IAB-2 באמצעות C#.

  • הצג את המסווג באמצעות המחלקה מסווג.
  • הגדר את מסמך הקלט ואת תיקיית הקלט.
  • הגדר את טקסונומיה כ-IAB2.
  • הגדר את הספירה של התוצאות הראשונות הטובות ביותר בתגובה. (אופציונאלי)
  • קבל את הקטגוריות הטקסונומיות על ידי קריאה לשיטת Classify עם הפרמטרים המוגדרים.
  • הדפס את שם המחלקה הטוב ביותר ואת הסתברות באמצעות תגובת הסיווג של שיטת הסיווג.

קוד המקור הבא של C# מראה כיצד לסווג מסמכים באמצעות טקסונומיה של IAB-2 ולקבל חלק מתוצאות סיווג המסמכים המובילות.

/*
* סיווג מסמכים (PDF, Word, ...) עם IAB-2 Taxonomy באמצעות C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

סיווג מסמכים עם טקסונומיה של מסמכים באמצעות C#

טקסונומיה של מסמכים משמשת לזיהוי מחלקות מסמכים, כגון חשבוניות, קורות חיים, טפסים, מיילים וכו’. להלן השלבים לזיהוי הסיווג הטקסונומי של מסמכים עם טקסונומיה של מסמכים באמצעות C#.

  • הצג את המסווגן באמצעות המחלקה מסווג.
  • הגדר את מסמך הקלט והתיקיה.
  • הגדר את טקסונומיה כמסמכים.
  • הגדר את הספירה של מספר התוצאות המובילות בתגובה. (אופציונאלי)
  • קבל את הקבוצות הטקסונומיות על ידי קריאה לשיטת Classify עם הפרמטרים שהוגדרו לעיל.
  • הדפס את שם המחלקה הטוב ביותר ואת הסתברות באמצעות תגובת הסיווג של שיטת הסיווג.

קוד המקור הבא של C# מראה כיצד לסווג מסמכים ולקבל כמה מהקטגוריות הטקסונומיות הטובות ביותר באמצעות טקסונומיה של מסמכים.

/*
* סיווג מסמכים (PDF, Word, ...) עם טקסונומיה של מסמכים באמצעות C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

סיווג מסמכים מוגנים באמצעות סיסמה באמצעות C#

אם המסמך שלך מאובטח באמצעות סיסמה, אתה יכול פשוט לספק את האישורים בזמן הסיווג. להלן השלבים לסיווג מסמכים מוגני סיסמה באמצעות C#

קטע הקוד הבא מראה כיצד לסווג מסמכים מוגני סיסמה ולקבל את הקטגוריה הטקסונומית הטובה ביותר באמצעות טקסונומיה ברירת המחדל (IAB-2).

/*
* סיווג מסמכים מוגני סיסמה באמצעות C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

ערכי ברירת המחדל עבור הטקסונומיה יהיו IAB-2 וספירת התוצאות הטובות ביותר תהיה 1.

קבל רישיון חינם

אתה יכול לקבל רישיון זמני בחינם על מנת להשתמש ב-API ללא מגבלות ההערכה.

סיכום

לסיום, למדנו לסווג סוגים שונים של מסמכים באמצעות טקסונומיות שונות. ליתר דיוק, סיווגנו מסמכי PDF לפי IAB-2 וטקסונומיות מסמכים באמצעות C#. בנוסף, דנו כיצד נוכל לסווג מסמכי Word המוגנים באמצעות סיסמה עם סיווג טקסונומי ספציפי או ברירת מחדל. כעת אתה יכול לשלב את תכונת סיווג המסמכים בתוך יישום NET.

למידע נוסף על ה-API, בקר בתיעוד. לשאלות, צור איתנו קשר דרך הפורום.

ראה גם