Os desenvolvedores geralmente têm requisitos para extrair texto de vários documentos. Já discutimos a extração de arquivos ZIP, a contagem de palavras em documentos, a extração de imagens de eBooks e algumas outras formas de análise. Hoje, neste artigo, você aprenderá como analisar e extrair texto dos arquivos Markdown em Java.

Extraia texto de arquivos MD usando C#.jpg

API Java para extração de texto Markdown

O GroupDocs fornece API Java para analisar documentos e extrair texto de vários formatos de documentos dentro dos aplicativos Java. A API suporta a análise de vários formatos de arquivo, como:

  • Documentos de processamento de texto: DOC, DOCX, …
  • Planilhas: XLS, XLSX, …
  • Apresentações: PPT, PPTX, ….
  • e-Livros: EPUB, FB2, …
  • Imagens de código de barras: JPG, PNG, …
  • A lista completa é mencionada na documentação.

No entanto, neste artigo, usaremos seu GroupDocs.Parser for Java para extrair apenas texto dos arquivos MD usando Java.

Você pode baixar o arquivo JAR da seção de downloads, ou apenas obter as configurações de repositório e dependência para o pom.xml de seus aplicativos Java baseados em maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Extrair texto do arquivo Markdown em Java

A seguir estão as etapas para extrair todo o conteúdo de texto do arquivo markdown em Java.

  • Carregue o arquivo MD usando a classe Parser.
  • Extraia todo o texto no TextReader usando o método getText.
  • Use o texto como desejar.

O código-fonte Java a seguir extrai o conteúdo textual do arquivo MD.

// Extraia todo o arquivo Text of Markdown em Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Obtenha uma licença de API gratuita

Você pode obter uma licença temporária gratuita para usar a API sem as limitações de avaliação.

Conclusão

Para resumir, o artigo explicou a maneira básica e rápida de extrair texto dos arquivos markdown em Java. Essa abordagem pode ter permitido que você pensasse em desenvolver seu aplicativo de extração de texto e analisador de documentos como o Online Document Parser desenvolvido por GroupDocs.

Você pode aprender mais sobre a API Java de análise de documentos usando sua documentação. A maneira rápida de aprender é experimentar os exemplos disponíveis no GitHub. Contacte-nos para qualquer questão através do fórum.

Veja também