У разработчиков часто возникают требования по извлечению текста из различных документов. Мы уже обсуждали извлечение ZIP-архивов, подсчет слов в документах, извлечение изображений из электронных книг и несколько других способов парсинга. Сегодня в этой статье вы узнаете, как анализировать и извлекать текст из файлов Markdown в Java.

Извлечение текста из файлов MD с помощью C#.jpg

Java API для извлечения текста Markdown

GroupDocs предоставляет Java API для разбора документов и извлечения текста из различных форматов документов в приложениях Java. API поддерживает синтаксический анализ многих форматов файлов, таких как:

  • Текстовые документы: DOC, DOCX, …
  • Электронные таблицы: XLS, XLSX, …
  • Презентации: PPT, PPTX, ….
  • Электронные книги: EPUB, FB2, …
  • Изображения штрих-кода: JPG, PNG, …
  • Полный список указан в документации.

Однако в этой статье мы будем использовать его GroupDocs.Parser for Java только для извлечения текста из файлов MD с использованием Java.

Вы можете загрузить файл JAR из раздела загрузок или просто получить репозиторий и конфигурации зависимостей для pom.xml ваших приложений Java на основе maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Извлечь текст из файла Markdown в Java

Ниже приведены шаги для извлечения всего текстового содержимого из файла уценки в Java.

  • Загрузите файл MD с помощью класса Parser.
  • Извлеките весь текст в TextReader с помощью метода getText.
  • Используйте текст по своему усмотрению.

Следующий исходный код Java извлекает текстовое содержимое файла MD.

// Извлечь весь текст файла Markdown в Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Получите бесплатную лицензию API

Вы можете получить бесплатную временную лицензию, чтобы использовать API без ограничений пробной версии.

Вывод

Подводя итог, статья объяснила простой и быстрый способ извлечения текста из файлов уценки в Java. Такой подход мог натолкнуть вас на мысль о разработке приложения для извлечения текста и анализа документов, подобного онлайн-анализатору документов, разработанному GroupDocs.

Вы можете узнать больше о парсинге документов Java API, используя его документацию. Быстрый способ научиться — изучить примеры, доступные на GitHub. Свяжитесь с нами по любому вопросу через форум.

Смотрите также