Os desenvolvedores geralmente têm requisitos para extrair texto de vários documentos. Já discutimos a extração de arquivos ZIP, a contagem de palavras em documentos, a extração de imagens de eBooks e algumas outras formas de análise. Hoje, neste artigo, você aprenderá como analisar e extrair texto dos arquivos Markdown em Java.
API Java para extração de texto Markdown
O GroupDocs fornece API Java para analisar documentos e extrair texto de vários formatos de documentos dentro dos aplicativos Java. A API suporta a análise de vários formatos de arquivo, como:
- Documentos de processamento de texto: DOC, DOCX, …
- Planilhas: XLS, XLSX, …
- Apresentações: PPT, PPTX, ….
- e-Livros: EPUB, FB2, …
- Imagens de código de barras: JPG, PNG, …
- A lista completa é mencionada na documentação.
No entanto, neste artigo, usaremos seu GroupDocs.Parser for Java para extrair apenas texto dos arquivos MD usando Java.
Você pode baixar o arquivo JAR da seção de downloads, ou apenas obter as configurações de repositório e dependência para o pom.xml de seus aplicativos Java baseados em maven.
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.6</version>
</dependency>
Extrair texto do arquivo Markdown em Java
A seguir estão as etapas para extrair todo o conteúdo de texto do arquivo markdown em Java.
- Carregue o arquivo MD usando a classe Parser.
- Extraia todo o texto no TextReader usando o método getText.
- Use o texto como desejar.
O código-fonte Java a seguir extrai o conteúdo textual do arquivo MD.
// Extraia todo o arquivo Text of Markdown em Java
try (Parser parser = new Parser("/path/document.md"))
{
TextReader reader = parser.getText()
System.out.println(reader.readToEnd());
}
Obtenha uma licença de API gratuita
Você pode obter uma licença temporária gratuita para usar a API sem as limitações de avaliação.
Conclusão
Para resumir, o artigo explicou a maneira básica e rápida de extrair texto dos arquivos markdown em Java. Essa abordagem pode ter permitido que você pensasse em desenvolver seu aplicativo de extração de texto e analisador de documentos como o Online Document Parser desenvolvido por GroupDocs.
Você pode aprender mais sobre a API Java de análise de documentos usando sua documentação. A maneira rápida de aprender é experimentar os exemplos disponíveis no GitHub. Contacte-nos para qualquer questão através do fórum.