ในฐานะโปรแกรมเมอร์ เรามักมีความต้องการที่จะดึงข้อความจากเอกสารประเภทต่างๆ ก่อนหน้านี้เราได้พูดถึงการนับคำในเอกสาร การแยกไฟล์ ZIP การแยกรูปภาพจาก eBook และการแยกวิเคราะห์ฟิลด์แบบฟอร์ม PDF วันนี้ ในบทความนี้ คุณจะได้เรียนรู้วิธีการแยกวิเคราะห์และแยกข้อความจากไฟล์ Markdown โดยใช้ C#
.NET API สำหรับการแยกข้อความ Markdown
GroupDocs ให้บริการ .NET API เพื่อแยกวิเคราะห์เอกสารและดึงข้อความจากรูปแบบเอกสารต่างๆ ภายในแอปพลิเคชัน .NET ในบทความนี้ เราจะใช้ GroupDocs.Parser for .NET เพื่อแยกข้อความจากไฟล์ MD โดยใช้ C#
นอกจากนี้ API ยังรองรับการแยกวิเคราะห์รูปแบบไฟล์อื่นๆ มากมาย เช่น เอกสารการประมวลผลคำ (DOC, DOCX, …), สเปรดชีต (XLS, XLSX, …), งานนำเสนอ (PPT, PPTX, …), eBooks (EPUB, FB2, …) , ภาพบาร์โค้ด (JPG, PNG, …) และอื่นๆ อีกมากมายที่กล่าวถึงในเอกสารประกอบ
คุณสามารถดาวน์โหลดโปรแกรมติดตั้ง DLLs หรือ MSI ได้จาก ส่วนการดาวน์โหลด หรือติดตั้ง API ในแอปพลิเคชัน .NET ของคุณผ่านทาง NuGet
PM> Install-Package GroupDocs.Parser
แยกข้อความจากไฟล์ Markdown ใน C#
ต่อไปนี้เป็นขั้นตอนในการแยกเนื้อหาข้อความทั้งหมดจากไฟล์มาร์กดาวน์โดยใช้ C#
- โหลดไฟล์ MD โดยใช้คลาส Parser
- แยกข้อความทั้งหมดลงใน TextReader โดยใช้วิธี GetText
- ใช้ข้อความตามที่คุณต้องการ
ซอร์สโค้ด C# ต่อไปนี้แยกเนื้อหาที่เป็นข้อความของไฟล์ MD
// แยกข้อความทั้งหมดของไฟล์ Markdown
using (Parser parser = new Parser("/path/document.md"))
{
using (TextReader reader = parser.GetText())
{
Console.WriteLine(reader.ReadToEnd());
}
}
รับใบอนุญาต API ฟรี
คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อใช้ API โดยไม่มีข้อจำกัดในการประเมิน
บทสรุป
โดยสรุป เราได้กล่าวถึงวิธีการแยกข้อความจากไฟล์มาร์กดาวน์ใน C# พร้อมตัวอย่าง นี่อาจเป็นแนวทางให้คุณพัฒนาแอปพลิเคชันแยกข้อความหรือแยกวิเคราะห์เอกสารของคุณเอง เช่น Online Document Parser ที่พัฒนาโดย GroupDocs
คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับการแยกวิเคราะห์เอกสาร .NET API โดยใช้ เอกสารประกอบ วิธีที่ดีที่สุดในการเรียนรู้คือการสัมผัสกับตัวอย่างที่มีอยู่ใน GitHub ติดต่อเราสำหรับคำถามใด ๆ ผ่านทาง ฟอรัม