Là một lập trình viên, chúng ta thường có yêu cầu trích xuất văn bản từ các loại tài liệu khác nhau. Trước đây chúng ta đã thảo luận về việc đếm từ trong tài liệu, giải nén tệp lưu trữ ZIP, trích xuất hình ảnh từ sách điện tử và phân tích cú pháp các trường biểu mẫu PDF. Hôm nay, trong bài viết này, bạn sẽ học cách phân tích cú pháp và trích xuất văn bản từ tệp Markdown bằng C#.

Trích xuất văn bản từ các tệp MD bằng C#.jpg

.NET API để trích xuất văn bản Markdown

GroupDocs cung cấp API .NET của mình để phân tích cú pháp tài liệu và trích xuất văn bản từ các định dạng tài liệu khác nhau trong các ứng dụng .NET. Trong bài viết này, chúng tôi sẽ sử dụng GroupDocs.Parser for .NET để trích xuất văn bản từ các tệp MD bằng C#.

Ngoài ra, API hỗ trợ phân tích cú pháp nhiều định dạng tệp khác như tài liệu soạn thảo văn bản (DOC, DOCX,…), bảng tính (XLS, XLSX,…), bản trình bày (PPT, PPTX,…), sách điện tử (EPUB, FB2,…) , hình ảnh mã vạch (JPG, PNG,…), và nhiều hình ảnh khác được đề cập trong tài liệu của nó.

Bạn có thể tải xuống trình cài đặt DLL hoặc MSI từ phần tải xuống hoặc cài đặt API trong ứng dụng .NET của bạn qua NuGet.

PM> Install-Package GroupDocs.Parser

Trích xuất văn bản từ tệp Markdown trong C#

Sau đây là các bước để trích xuất toàn bộ nội dung văn bản từ tệp đánh dấu bằng C#.

  • Tải tệp MD bằng lớp Parser.
  • Trích xuất toàn bộ văn bản vào TextReader bằng phương thức GetText.
  • Sử dụng văn bản như bạn muốn.

Mã nguồn C# sau trích xuất nội dung văn bản của tệp MD.

// Trích xuất toàn bộ Văn bản của tệp Markdown
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Nhận giấy phép API miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để sử dụng API mà không bị giới hạn đánh giá.

Sự kết luận

Tóm lại, chúng ta đã thảo luận về cách trích xuất văn bản từ các tệp đánh dấu trong C# bằng một ví dụ. Điều này có thể đã hướng dẫn bạn phát triển ứng dụng trích xuất văn bản hoặc trình phân tích cú pháp tài liệu của riêng bạn như Trình phân tích cú pháp tài liệu trực tuyến do GroupDocs phát triển.

Bạn có thể tìm hiểu thêm về tài liệu phân tích cú pháp .NET API bằng cách sử dụng tài liệu của nó. Cách tốt nhất để tìm hiểu là trải nghiệm các ví dụ có sẵn trên GitHub. Liên hệ với chúng tôi nếu có bất kỳ thắc mắc nào qua diễn đàn.

Xem thêm