การจัดประเภทเป็นวิธีการที่ข้อความถูกระบุอย่างเป็นระบบและจัดระเบียบตามกฎ อนุกรมวิธานกำหนดวิทยาศาสตร์ของการจำแนกดังกล่าว เมื่อคุณจัดการกับเอกสารที่เป็นข้อความจำนวนมาก การค้นหาหัวข้อของเอกสารใดๆ จะเป็นเรื่องยากจนกว่าจะมีการจัดประเภทเนื้อหาตามอนุกรมวิธาน ในบทความนี้ คุณจะได้เรียนรู้วิธีจัดประเภทเอกสารทางโปรแกรมตาม IAB-2 และอนุกรมวิธานเอกสารโดยใช้ C#
หัวข้อต่อไปนี้ครอบคลุมด้านล่าง:
- .NET API สำหรับการจำแนกประเภทอนุกรมวิธาน
- การจำแนกประเภทเอกสารด้วย IAB-2 Taxonomy
- จำแนกเอกสารด้วย Document Taxonomy
- จัดประเภทเอกสารที่ป้องกันด้วยรหัสผ่าน
.NET API สำหรับการจำแนกประเภทเอกสาร
GroupDocs.Classification ให้โซลูชันการจัดหมวดหมู่สำหรับแอปพลิเคชันประเภทต่างๆ .NET API ช่วยให้คุณสามารถจัดประเภทเอกสารในรูปแบบไฟล์ต่างๆ ตามหมวดหมู่อนุกรมวิธานต่างๆ ภายในแอปพลิเคชัน .NET ของคุณ เราจะใช้ API ของ GroupDocs.Classification for .NET สำหรับการจำแนกเอกสาร PDF และ Word โดยใช้ C#
คุณสามารถดาวน์โหลดโปรแกรมติดตั้ง DLLs หรือ MSI ได้จาก ส่วนการดาวน์โหลด หรือติดตั้ง API ในแอปพลิเคชัน .NET ของคุณผ่านทาง NuGet
PM> Install-Package GroupDocs.Classification
จัดประเภทเอกสารด้วย IAB-2 Taxonomy โดยใช้ C#
IAB-2 จัดหมวดหมู่เนื้อหาของเอกสารเป็น หัวข้อ หลายหัวข้อ จากนั้นจัดหมวดหมู่ตามระดับความลึก ต่อไปนี้เป็นขั้นตอนในการระบุการจัดประเภทการจัดหมวดหมู่ของเอกสารด้วย IAB-2 taxonomy โดยใช้ C#
- จำลองตัวแยกประเภทโดยใช้คลาส Classifier
- กำหนดเอกสารอินพุตและโฟลเดอร์อินพุต
- กำหนด Taxonomy เป็น IAB2
- ตั้งค่าการนับสำหรับผลลัพธ์ที่ดีที่สุดสองสามรายการแรกในการตอบกลับ (ไม่จำเป็น)
- รับหมวดหมู่อนุกรมวิธานโดยเรียกเมธอด Classify ด้วยพารามิเตอร์ที่กำหนด
- พิมพ์ ชื่อคลาสที่ดีที่สุด และ ความน่าจะเป็น โดยใช้ การตอบสนองการจัดประเภท ของเมธอด Classify
ซอร์สโค้ด C# ต่อไปนี้แสดงวิธีจัดประเภทเอกสารโดยใช้อนุกรมวิธาน IAB-2 และรับผลลัพธ์การจัดประเภทเอกสารชั้นนำบางส่วน
/*
* จัดประเภทเอกสาร (PDF, Word, ...) ด้วย IAB-2 Taxonomy โดยใช้ C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Iab2);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: Technology\_&Computing, Probability: 0.8188434
Class: Video\_Gaming, Probability: 0.12686
Class: Hobbies&\_Interests, Probability: 0.03112753
Class: Music\_and\_Audio, Probability: 0.006756512
จัดประเภทเอกสารด้วย Document Taxonomy โดยใช้ C#
การจัดหมวดหมู่เอกสารใช้เพื่อระบุ คลาสเอกสาร ต่างๆ เช่น ใบแจ้งหนี้ ประวัติย่อ แบบฟอร์ม อีเมล ฯลฯ ต่อไปนี้เป็นขั้นตอนในการระบุการจัดหมวดหมู่การจัดหมวดหมู่เอกสารด้วยการจัดหมวดหมู่เอกสารโดยใช้ C#
- จำลองตัวแยกประเภทโดยใช้คลาส Classifier
- ตั้งค่าเอกสารและโฟลเดอร์อินพุต
- กำหนด Taxonomy เป็นเอกสาร
- กำหนดจำนวนผลลัพธ์สูงสุดในการตอบกลับ (ไม่จำเป็น)
- รับกลุ่มอนุกรมวิธานโดยเรียกเมธอด Classify ด้วยพารามิเตอร์ที่กำหนดไว้ข้างต้น
- พิมพ์ ชื่อคลาสที่ดีที่สุด และ ความน่าจะเป็น โดยใช้ การตอบสนองการจัดประเภท ของเมธอด Classify
ซอร์สโค้ด C# ต่อไปนี้แสดงวิธีจัดประเภทเอกสารและรับหมวดหมู่การจัดหมวดหมู่ที่ดีที่สุดโดยใช้การจัดหมวดหมู่เอกสาร
/*
* จำแนกเอกสาร (PDF, Word, ...) ด้วย Document Taxonomy โดยใช้ C#
*/
Classifier classifier = new Classifier();
var filename = "document.pdf";
var response = classifier.Classify(filename, "<inputFolderPath>" , 4, Taxonomy.Documents);
response.BestResults.ToList().ForEach(bestResult => Console.WriteLine($"Class: {bestResult.Name}, \t Probability: {bestResult.Probability}"));
Class: ADVE, Probability: 0.3874436
Class: Resume, Probability: 0.2438204
Class: News, Probability: 0.1357582
Class: Memo, Probability: 0.0641943
จัดประเภทเอกสารที่ป้องกันด้วยรหัสผ่านโดยใช้ C#
หากเอกสารของคุณปลอดภัยด้วยรหัสผ่าน คุณเพียงแค่ระบุข้อมูลประจำตัวในขณะที่จัดประเภท ต่อไปนี้เป็นขั้นตอนสำหรับการจำแนกเอกสารที่ป้องกันด้วยรหัสผ่านโดยใช้ C#
- สร้างอินสแตนซ์ของ Classifier
- กำหนดเอกสารอินพุต โฟลเดอร์อินพุต และรหัสผ่านของเอกสารที่มีการป้องกัน
- กำหนด Taxonomy เป็นเอกสาร
- รับกลุ่มอนุกรมวิธานโดยเรียกเมธอด Classify ด้วยพารามิเตอร์ที่กำหนด
- รับ Best Class Name และ Probability จาก response ของ Classify method
ข้อมูลโค้ดต่อไปนี้แสดงวิธีจัดประเภทเอกสารที่มีการป้องกันด้วยรหัสผ่านและรับหมวดหมู่อนุกรมวิธานที่ดีที่สุดโดยใช้อนุกรมวิธานเริ่มต้น (IAB-2)
/*
* จัดประเภทเอกสารที่ป้องกันด้วยรหัสผ่านโดยใช้ C#
*/
Classifier classifier = new Classifier();
var filename = "password-protected.docx";
var response = classifier.Classify(filename, "<inputFolderPath>", password: "password");
Console.WriteLine($"Best Class: {response.BestClassName}, \t Probability: {response.BestClassProbability}");
Best Class: Hobbies\_&\_Interests, Probability: 0.4548415
ค่าเริ่มต้นสำหรับอนุกรมวิธานจะเป็น IAB-2 และจำนวนผลลัพธ์ที่ดีที่สุดคือ 1
รับใบอนุญาตฟรี
คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อใช้ API โดยไม่มีข้อจำกัดในการประเมิน
บทสรุป
โดยสรุป เราเรียนรู้ที่จะจัดประเภทเอกสารประเภทต่างๆ โดยใช้อนุกรมวิธานที่แตกต่างกัน แม่นยำยิ่งขึ้น เราจัดประเภทเอกสาร PDF ตาม IAB-2 และอนุกรมวิธานของเอกสารโดยใช้ C# นอกจากนี้ เรายังกล่าวถึงวิธีที่เราสามารถจัดประเภทเอกสาร Word ที่ป้องกันด้วยรหัสผ่านด้วยการจัดประเภทตามค่าเริ่มต้นหรืออนุกรมวิธานเฉพาะ ตอนนี้คุณสามารถรวมคุณลักษณะการจัดประเภทเอกสารภายในแอปพลิเคชัน .NET ของคุณได้แล้ว
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ API โปรดไปที่ เอกสารประกอบ สำหรับข้อสงสัย ติดต่อเราผ่านทาง ฟอรัม