Como programadores, muitas vezes temos a necessidade de extrair o texto de vários tipos de documentos. Anteriormente, discutimos a contagem de palavras em documentos, a extração de arquivos ZIP, a extração de imagens de eBooks e a análise de campos de formulário PDF. Hoje, neste artigo, você aprenderá como analisar e extrair texto de arquivos Markdown usando C#.
API .NET para extração de texto Markdown
O GroupDocs fornece sua API .NET para analisar documentos e extrair texto de vários formatos de documentos dentro dos aplicativos .NET. Neste artigo, usaremos seu GroupDocs.Parser for .NET para extrair texto dos arquivos MD usando C#.
Além disso, a API suporta a análise de muitos outros formatos de arquivo, como documentos de processamento de texto (DOC, DOCX, …), planilhas (XLS, XLSX, …), apresentações (PPT, PPTX, …), eBooks (EPUB, FB2, …) , imagens de código de barras (JPG, PNG, …), e muitos outros mencionados em sua documentação.
Você pode baixar as DLLs ou o instalador MSI da seção de downloads ou instalar a API em seu aplicativo .NET via NuGet.
PM> Install-Package GroupDocs.Parser
Extrair texto do arquivo Markdown em C#
A seguir estão as etapas para extrair todo o conteúdo de texto do arquivo markdown usando C#.
- Carregue o arquivo MD usando a classe Parser.
- Extraia todo o texto no TextReader usando o método GetText.
- Use o texto como desejar.
O código-fonte C# a seguir extrai o conteúdo textual do arquivo MD.
// Extraia todo o texto do arquivo Markdown
using (Parser parser = new Parser("/path/document.md"))
{
using (TextReader reader = parser.GetText())
{
Console.WriteLine(reader.ReadToEnd());
}
}
Obtenha uma licença de API gratuita
Você pode obter uma licença temporária gratuita para usar a API sem as limitações de avaliação.
Conclusão
Para resumir, discutimos como extrair texto dos arquivos markdown em C# com um exemplo. Isso pode tê-lo guiado a desenvolver seu próprio aplicativo de extração de texto ou analisador de documentos, como o Online Document Parser desenvolvido pelo GroupDocs.
Você pode aprender mais sobre a análise de documentos .NET API usando sua documentação. A melhor maneira de aprender é experimentar os exemplos disponíveis no GitHub. Contacte-nos para qualquer questão através do fórum.