作为程序员,我们经常需要从各种文档中提取文本。之前我们已经讨论过计算文档中的单词、提取 ZIP 档案、从电子书中提取图像以及解析 PDF 表单字段。今天,在本文中,您将学习如何使用 C# 从 Markdown 文件中解析和提取文本。

使用 C#.jpg 从 MD 文件中提取文本

用于 Markdown 文本提取的 .NET API

GroupDocs 提供其 .NET API 来解析文档并从 .NET 应用程序中的各种文档格式中提取文本。在本文中,我们将使用其 GroupDocs.Parser for .NET 使用 C# 从 MD 文件中提取文本。

此外,API 支持解析许多其他文件格式,如文字处理文档(DOC、DOCX、…)、电子表格(XLS、XLSX、…)、演示文稿(PPT、PPTX、…)、电子书(EPUB、FB2…) 、条形码图像(JPG、PNG、…)以及其文档中提到的许多其他图像。

您可以从 下载部分 下载 DLL 或 MSI 安装程序,或通过 NuGet 在您的 .NET 应用程序中安装 API。

PM> Install-Package GroupDocs.Parser

从 C# 中的 Markdown 文件中提取文本

以下是使用 C# 从 markdown 文件中提取整个文本内容的步骤。

  • 使用 Parser 类加载 MD 文件。
  • 使用 GetText 方法将整个文本提取到 TextReader 中。
  • 随意使用文本。

以下 C# 源代码提取 MD 文件的文本内容。

// 提取 Markdown 文件的整个文本
using (Parser parser = new Parser("/path/document.md"))
{
    using (TextReader reader = parser.GetText())
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

获取免费 API 许可证

您可以获得免费的临时许可证 使用 API 而不受评估限制。

结论

综上所述,我们通过一个示例讨论了如何从 C# 中的 markdown 文件中提取文本。这可能指导您开发自己的文本提取或文档解析器应用程序,例如由 GroupDocs 开发的 在线文档解析器

您可以使用其 documentation 了解有关文档解析 .NET API 的更多信息。最好的学习方式是体验 GitHub 上提供的示例。如有任何疑问,请通过 论坛 联系我们。

也可以看看