סיווג הוא בעצם גישה שבה טקסט מזוהה באופן שיטתי ולאחר מכן מאורגן על פי כללים. הטקסונומיה מגדירה את המדע של סיווג כזה. כאשר אתה מתמודד עם חבורה של מסמכים טקסטואליים, קשה למצוא נושא של כל מסמך עד לסיווג הטקסונומי של התוכן. במאמר זה תלמדו כיצד לסווג מסמכים באופן פרוגרמטי לפי IAB-2 ולתעד טקסונומיה באמצעות C#.
הנושאים הבאים מכוסים להלן:
- .NET API לסיווג טקסונומי
- סיווג מסמכים עם טקסונומיה של IAB-2
- סיווג מסמכים באמצעות טקסונומיה של מסמכים
- סיווג מסמכים מוגנים באמצעות סיסמה
.NET API לסיווג טקסונומי של מסמכים
GroupDocs.Classification מספק את פתרון הסיווג עבור סוגים שונים של יישומים. ה-.NET API שלו מאפשר לך לסווג מסמכים בפורמטים שונים של קבצים לפי קטגוריות טקסונומיות שונות בתוך יישומי ה-.NET שלך. נשתמש ב-GroupDocs.Classification for .NET API עבור סיווג מסמכי PDF ו-Word באמצעות C#.
אתה יכול להוריד את קובצי ה-DLL או ה-MSI מתקין מסעיף ההורדות או להתקין את ה-API באפליקציית NET שלך דרך NuGet.
PM> Install-Package GroupDocs.Classification
סיווג מסמכים עם IAB-2 Taxonomy באמצעות C#
IAB-2 מסווג את תוכן המסמך למספר נושאים ולאחר מכן מסווג אותו על סמך רמת העומק. להלן השלבים לזיהוי הסיווג הטקסונומי של מסמכים עם טקסונומיה IAB-2 באמצעות C#.
- הצג את המסווג באמצעות המחלקה מסווג.
- הגדר את מסמך הקלט ואת תיקיית הקלט.
- הגדר את טקסונומיה כ-IAB2.
- הגדר את הספירה של התוצאות הראשונות הטובות ביותר בתגובה. (אופציונאלי)
- קבל את הקטגוריות הטקסונומיות על ידי קריאה לשיטת Classify עם הפרמטרים המוגדרים.
- הדפס את שם המחלקה הטוב ביותר ואת הסתברות באמצעות תגובת הסיווג של שיטת הסיווג.
קוד המקור הבא של C# מראה כיצד לסווג מסמכים באמצעות טקסונומיה של IAB-2 ולקבל חלק מתוצאות סיווג המסמכים המובילות.
/*
* סיווג מסמכים (PDF, Word, ...) עם IAB-2 Taxonomy באמצעות C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: Technology\_&Computing, Probability: 0.8188434
Class: Video\_Gaming, Probability: 0.12686
Class: Hobbies&\_Interests, Probability: 0.03112753
Class: Music\_and\_Audio, Probability: 0.006756512
סיווג מסמכים עם טקסונומיה של מסמכים באמצעות C#
טקסונומיה של מסמכים משמשת לזיהוי מחלקות מסמכים, כגון חשבוניות, קורות חיים, טפסים, מיילים וכו’. להלן השלבים לזיהוי הסיווג הטקסונומי של מסמכים עם טקסונומיה של מסמכים באמצעות C#.
- הצג את המסווגן באמצעות המחלקה מסווג.
- הגדר את מסמך הקלט והתיקיה.
- הגדר את טקסונומיה כמסמכים.
- הגדר את הספירה של מספר התוצאות המובילות בתגובה. (אופציונאלי)
- קבל את הקבוצות הטקסונומיות על ידי קריאה לשיטת Classify עם הפרמטרים שהוגדרו לעיל.
- הדפס את שם המחלקה הטוב ביותר ואת הסתברות באמצעות תגובת הסיווג של שיטת הסיווג.
קוד המקור הבא של C# מראה כיצד לסווג מסמכים ולקבל כמה מהקטגוריות הטקסונומיות הטובות ביותר באמצעות טקסונומיה של מסמכים.
/*
* סיווג מסמכים (PDF, Word, ...) עם טקסונומיה של מסמכים באמצעות C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.3874436
Class: Resume, Probability: 0.2438204
Class: News, Probability: 0.1357582
Class: Memo, Probability: 0.0641943
סיווג מסמכים מוגנים באמצעות סיסמה באמצעות C#
אם המסמך שלך מאובטח באמצעות סיסמה, אתה יכול פשוט לספק את האישורים בזמן הסיווג. להלן השלבים לסיווג מסמכים מוגני סיסמה באמצעות C#
- הצג את מסווג.
- הגדר את מסמך הקלט, תיקיית הקלט והסיסמה של המסמך המוגן.
- הגדר את טקסונומיה כמסמכים.
- קבל את הקבוצה הטקסונומית על ידי קריאה לשיטת Classify עם הפרמטרים המוגדרים.
- קבל את שם המחלקה הטוב ביותר ואת הסתברות מה-תגובה של שיטת ה-Classify.
קטע הקוד הבא מראה כיצד לסווג מסמכים מוגני סיסמה ולקבל את הקטגוריה הטקסונומית הטובה ביותר באמצעות טקסונומיה ברירת המחדל (IAB-2).
/*
* סיווג מסמכים מוגני סיסמה באמצעות C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests, Probability: 0.4548415
ערכי ברירת המחדל עבור הטקסונומיה יהיו IAB-2 וספירת התוצאות הטובות ביותר תהיה 1.
קבל רישיון חינם
אתה יכול לקבל רישיון זמני בחינם על מנת להשתמש ב-API ללא מגבלות ההערכה.
סיכום
לסיום, למדנו לסווג סוגים שונים של מסמכים באמצעות טקסונומיות שונות. ליתר דיוק, סיווגנו מסמכי PDF לפי IAB-2 וטקסונומיות מסמכים באמצעות C#. בנוסף, דנו כיצד נוכל לסווג מסמכי Word המוגנים באמצעות סיסמה עם סיווג טקסונומי ספציפי או ברירת מחדל. כעת אתה יכול לשלב את תכונת סיווג המסמכים בתוך יישום NET.
למידע נוסף על ה-API, בקר בתיעוד. לשאלות, צור איתנו קשר דרך הפורום.