作為程序員,我們經常有從各種文檔中提取文本的需求。之前我們已經討論過計算文檔中的單詞數、提取 ZIP 檔案、從電子書中提取圖像以及解析 PDF 表單字段。今天,在本文中,您將學習如何使用 C# 從 Markdown 文件中解析和提取文本。

使用 C#.jpg 從 MD 文件中提取文本

用於 Markdown 文本提取的 .NET API

GroupDocs 提供其 .NET API 來解析文檔並從 .NET 應用程序中的各種文檔格式中提取文本。在本文中,我們將使用其 GroupDocs.Parser for .NET 使用 C# 從 MD 文件中提取文本。

此外,API 支持解析許多其他文件格式,如文字處理文檔(DOC、DOCX 等)、電子表格(XLS、XLSX 等)、演示文稿(PPT、PPTX 等)、電子書(EPUB、FB2 等) 、條形碼圖像(JPG、PNG、…)以及其文檔中提到的許多其他圖像。

您可以從 下載部分 下載 DLL 或 MSI 安裝程序,或通過 NuGet 在您的 .NET 應用程序中安裝 API。

PM> Install-Package GroupDocs.Parser

C# 從 Markdown 文件中提取文本

下面是使用C#從markdown文件中提取全部文本內容的步驟。

  • 使用 Parser 類加載 MD 文件。
  • 使用 GetText 方法將整個文本提取到 TextReader 中。
  • 根據需要使用文本。

以下 C# 源代碼提取 MD 文件的文本內容。

// 提取 Markdown 文件的整個文本
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

獲取免費的 API 許可證

您可以 獲得免費的臨時許可證 以不受評估限制地使用 API。

結論

綜上所述,我們討論瞭如何通過示例從 C# 中的降價文件中提取文本。這可能會指導您開發自己的文本提取或文檔解析器應用程序,例如 GroupDocs 開發的 Online Document Parser

您可以使用其 文檔 了解有關文檔解析 .NET API 的更多信息。最好的學習方法是體驗 GitHub 上提供的示例。如有任何疑問,請通過 論壇 聯繫我們。

也可以看看