ในฐานะโปรแกรมเมอร์ เรามักมีความต้องการที่จะดึงข้อความจากเอกสารประเภทต่างๆ ก่อนหน้านี้เราได้พูดถึงการนับคำในเอกสาร การแยกไฟล์ ZIP การแยกรูปภาพจาก eBook และการแยกวิเคราะห์ฟิลด์แบบฟอร์ม PDF วันนี้ ในบทความนี้ คุณจะได้เรียนรู้วิธีการแยกวิเคราะห์และแยกข้อความจากไฟล์ Markdown โดยใช้ C#

แยกข้อความจากไฟล์ MD โดยใช้ C#.jpg

.NET API สำหรับการแยกข้อความ Markdown

GroupDocs ให้บริการ .NET API เพื่อแยกวิเคราะห์เอกสารและดึงข้อความจากรูปแบบเอกสารต่างๆ ภายในแอปพลิเคชัน .NET ในบทความนี้ เราจะใช้ GroupDocs.Parser for .NET เพื่อแยกข้อความจากไฟล์ MD โดยใช้ C#

นอกจากนี้ API ยังรองรับการแยกวิเคราะห์รูปแบบไฟล์อื่นๆ มากมาย เช่น เอกสารการประมวลผลคำ (DOC, DOCX, …), สเปรดชีต (XLS, XLSX, …), งานนำเสนอ (PPT, PPTX, …), eBooks (EPUB, FB2, …) , ภาพบาร์โค้ด (JPG, PNG, …) และอื่นๆ อีกมากมายที่กล่าวถึงในเอกสารประกอบ

คุณสามารถดาวน์โหลดโปรแกรมติดตั้ง DLLs หรือ MSI ได้จาก ส่วนการดาวน์โหลด หรือติดตั้ง API ในแอปพลิเคชัน .NET ของคุณผ่านทาง NuGet

PM> Install-Package GroupDocs.Parser

แยกข้อความจากไฟล์ Markdown ใน C#

ต่อไปนี้เป็นขั้นตอนในการแยกเนื้อหาข้อความทั้งหมดจากไฟล์มาร์กดาวน์โดยใช้ C#

  • โหลดไฟล์ MD โดยใช้คลาส Parser
  • แยกข้อความทั้งหมดลงใน TextReader โดยใช้วิธี GetText
  • ใช้ข้อความตามที่คุณต้องการ

ซอร์สโค้ด C# ต่อไปนี้แยกเนื้อหาที่เป็นข้อความของไฟล์ MD

// แยกข้อความทั้งหมดของไฟล์ Markdown
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

รับใบอนุญาต API ฟรี

คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อใช้ API โดยไม่มีข้อจำกัดในการประเมิน

บทสรุป

โดยสรุป เราได้กล่าวถึงวิธีการแยกข้อความจากไฟล์มาร์กดาวน์ใน C# พร้อมตัวอย่าง นี่อาจเป็นแนวทางให้คุณพัฒนาแอปพลิเคชันแยกข้อความหรือแยกวิเคราะห์เอกสารของคุณเอง เช่น Online Document Parser ที่พัฒนาโดย GroupDocs

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับการแยกวิเคราะห์เอกสาร .NET API โดยใช้ เอกสารประกอบ วิธีที่ดีที่สุดในการเรียนรู้คือการสัมผัสกับตัวอย่างที่มีอยู่ใน GitHub ติดต่อเราสำหรับคำถามใด ๆ ผ่านทาง ฟอรัม

ดูสิ่งนี้ด้วย