การจัดประเภทเป็นวิธีการที่ข้อความถูกระบุอย่างเป็นระบบและจัดระเบียบตามกฎ อนุกรมวิธานกำหนดวิทยาศาสตร์ของการจำแนกดังกล่าว เมื่อคุณจัดการกับเอกสารที่เป็นข้อความจำนวนมาก การค้นหาหัวข้อของเอกสารใดๆ จะเป็นเรื่องยากจนกว่าจะมีการจัดประเภทเนื้อหาตามอนุกรมวิธาน ในบทความนี้ คุณจะได้เรียนรู้วิธีจัดประเภทเอกสารทางโปรแกรมตาม IAB-2 และอนุกรมวิธานเอกสารโดยใช้ C#

หัวข้อต่อไปนี้ครอบคลุมด้านล่าง:

.NET API สำหรับการจำแนกประเภทเอกสาร

GroupDocs.Classification ให้โซลูชันการจัดหมวดหมู่สำหรับแอปพลิเคชันประเภทต่างๆ .NET API ช่วยให้คุณสามารถจัดประเภทเอกสารในรูปแบบไฟล์ต่างๆ ตามหมวดหมู่อนุกรมวิธานต่างๆ ภายในแอปพลิเคชัน .NET ของคุณ เราจะใช้ API ของ GroupDocs.Classification for .NET สำหรับการจำแนกเอกสาร PDF และ Word โดยใช้ C#

คุณสามารถดาวน์โหลดโปรแกรมติดตั้ง DLLs หรือ MSI ได้จาก ส่วนการดาวน์โหลด หรือติดตั้ง API ในแอปพลิเคชัน .NET ของคุณผ่านทาง NuGet

PM> Install-Package GroupDocs.Classification

จัดประเภทเอกสารด้วย IAB-2 Taxonomy โดยใช้ C#

IAB-2 จัดหมวดหมู่เนื้อหาของเอกสารเป็น หัวข้อ หลายหัวข้อ จากนั้นจัดหมวดหมู่ตามระดับความลึก ต่อไปนี้เป็นขั้นตอนในการระบุการจัดประเภทการจัดหมวดหมู่ของเอกสารด้วย IAB-2 taxonomy โดยใช้ C#

ซอร์สโค้ด C# ต่อไปนี้แสดงวิธีจัดประเภทเอกสารโดยใช้อนุกรมวิธาน IAB-2 และรับผลลัพธ์การจัดประเภทเอกสารชั้นนำบางส่วน

/*
* จัดประเภทเอกสาร (PDF, Word, ...) ด้วย IAB-2 Taxonomy โดยใช้ C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: Technology\_&Computing,     Probability: 0.8188434 
 Class: Video\_Gaming,                     Probability: 0.12686 
 Class: Hobbies&\_Interests,             Probability: 0.03112753 
 Class: Music\_and\_Audio,                Probability: 0.006756512

จัดประเภทเอกสารด้วย Document Taxonomy โดยใช้ C#

การจัดหมวดหมู่เอกสารใช้เพื่อระบุ คลาสเอกสาร ต่างๆ เช่น ใบแจ้งหนี้ ประวัติย่อ แบบฟอร์ม อีเมล ฯลฯ ต่อไปนี้เป็นขั้นตอนในการระบุการจัดหมวดหมู่การจัดหมวดหมู่เอกสารด้วยการจัดหมวดหมู่เอกสารโดยใช้ C#

ซอร์สโค้ด C# ต่อไปนี้แสดงวิธีจัดประเภทเอกสารและรับหมวดหมู่การจัดหมวดหมู่ที่ดีที่สุดโดยใช้การจัดหมวดหมู่เอกสาร

/*
* จำแนกเอกสาร (PDF, Word, ...) ด้วย Document Taxonomy โดยใช้ C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
 Class: ADVE,         Probability: 0.3874436
 Class: Resume,     Probability: 0.2438204
 Class: News,         Probability: 0.1357582
 Class: Memo,        Probability: 0.0641943

จัดประเภทเอกสารที่ป้องกันด้วยรหัสผ่านโดยใช้ C#

หากเอกสารของคุณปลอดภัยด้วยรหัสผ่าน คุณเพียงแค่ระบุข้อมูลประจำตัวในขณะที่จัดประเภท ต่อไปนี้เป็นขั้นตอนสำหรับการจำแนกเอกสารที่ป้องกันด้วยรหัสผ่านโดยใช้ C#

  • สร้างอินสแตนซ์ของ Classifier
  • กำหนดเอกสารอินพุต โฟลเดอร์อินพุต และรหัสผ่านของเอกสารที่มีการป้องกัน
  • กำหนด Taxonomy เป็นเอกสาร
  • รับกลุ่มอนุกรมวิธานโดยเรียกเมธอด Classify ด้วยพารามิเตอร์ที่กำหนด
  • รับ Best Class Name และ Probability จาก response ของ Classify method

ข้อมูลโค้ดต่อไปนี้แสดงวิธีจัดประเภทเอกสารที่มีการป้องกันด้วยรหัสผ่านและรับหมวดหมู่อนุกรมวิธานที่ดีที่สุดโดยใช้อนุกรมวิธานเริ่มต้น (IAB-2)

/*
* จัดประเภทเอกสารที่ป้องกันด้วยรหัสผ่านโดยใช้ C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests,      Probability: 0.4548415

ค่าเริ่มต้นสำหรับอนุกรมวิธานจะเป็น IAB-2 และจำนวนผลลัพธ์ที่ดีที่สุดคือ 1

รับใบอนุญาตฟรี

คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อใช้ API โดยไม่มีข้อจำกัดในการประเมิน

บทสรุป

โดยสรุป เราเรียนรู้ที่จะจัดประเภทเอกสารประเภทต่างๆ โดยใช้อนุกรมวิธานที่แตกต่างกัน แม่นยำยิ่งขึ้น เราจัดประเภทเอกสาร PDF ตาม IAB-2 และอนุกรมวิธานของเอกสารโดยใช้ C# นอกจากนี้ เรายังกล่าวถึงวิธีที่เราสามารถจัดประเภทเอกสาร Word ที่ป้องกันด้วยรหัสผ่านด้วยการจัดประเภทตามค่าเริ่มต้นหรืออนุกรมวิธานเฉพาะ ตอนนี้คุณสามารถรวมคุณลักษณะการจัดประเภทเอกสารภายในแอปพลิเคชัน .NET ของคุณได้แล้ว

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ API โปรดไปที่ เอกสารประกอบ สำหรับข้อสงสัย ติดต่อเราผ่านทาง ฟอรัม

ดูสิ่งนี้ด้วย