به عنوان یک برنامه نویس، ما اغلب نیاز داریم که متن را از انواع مختلف اسناد استخراج کنیم. قبلاً درباره شمارش کلمات در اسناد، استخراج آرشیو ZIP، استخراج تصاویر از کتاب‌های الکترونیکی و تجزیه فیلدهای فرم PDF بحث کرده‌ایم. امروز در این مقاله با نحوه تجزیه و استخراج متن از فایل های Markdown با استفاده از C# آشنا می شوید.

متن را از فایل های MD با استفاده از C#.jpg استخراج کنید

NET API برای استخراج متن Markdown

GroupDocs .NET API خود را برای تجزیه اسناد و استخراج متن از فرمت های اسناد مختلف در برنامه های NET ارائه می دهد. در این مقاله، ما از GroupDocs.Parser for .NET آن برای استخراج متن از فایل‌های MD با استفاده از C# استفاده می‌کنیم.

علاوه بر این، API از تجزیه بسیاری از فرمت‌های فایل دیگر مانند اسناد پردازش کلمه (DOC، DOCX، …)، صفحات گسترده (XLS، XLSX، …)، ارائه‌ها (PPT، PPTX، …)، کتاب‌های الکترونیکی (EPUB، FB2، …) پشتیبانی می‌کند. ، تصاویر بارکد (JPG، PNG، …)، و بسیاری دیگر که در مستندات آن ذکر شده است.

می توانید نصب کننده DLL یا MSI را از بخش دانلودها دانلود کنید یا از طریق NuGet API را در برنامه .NET خود نصب کنید.

PM> Install-Package GroupDocs.Parser

استخراج متن از فایل Markdown در سی شارپ

مراحل زیر برای استخراج کل محتوای متن از فایل علامت گذاری با استفاده از C# است.

  • فایل MD را با استفاده از کلاس Parser بارگیری کنید.
  • کل متن را با استفاده از متد GetText در TextReader استخراج کنید.
  • از متن به دلخواه استفاده کنید.

کد منبع C# زیر محتوای متنی فایل MD را استخراج می کند.

// متن کامل فایل Markdown را استخراج کنید
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

مجوز API رایگان دریافت کنید

برای استفاده از API بدون محدودیت ارزیابی، می توانید یک مجوز موقت رایگان دریافت کنید.

نتیجه

به طور خلاصه، نحوه استخراج متن از فایل های علامت گذاری شده در C# را با یک مثال مورد بحث قرار دادیم. این ممکن است شما را راهنمایی کند تا برنامه استخراج متن یا تجزیه کننده سند خود را مانند تجزیه کننده سند آنلاین توسعه یافته توسط GroupDocs توسعه دهید.

می‌توانید درباره تجزیه و تحلیل سند .NET API با استفاده از مستندات آن اطلاعات بیشتری کسب کنید. بهترین راه برای یادگیری تجربه نمونه هایی است که در GitHub موجود است. برای هرگونه سوال از طریق [فروم 11 با ما تماس بگیرید.

همچنین ببینید