У разработчиков часто возникают требования по извлечению текста из различных документов. Мы уже обсуждали извлечение ZIP-архивов, подсчет слов в документах, извлечение изображений из электронных книг и несколько других способов парсинга. Сегодня в этой статье вы узнаете, как анализировать и извлекать текст из файлов Markdown в Java.
Java API для извлечения текста Markdown
GroupDocs предоставляет Java API для разбора документов и извлечения текста из различных форматов документов в приложениях Java. API поддерживает синтаксический анализ многих форматов файлов, таких как:
- Текстовые документы: DOC, DOCX, …
- Электронные таблицы: XLS, XLSX, …
- Презентации: PPT, PPTX, ….
- Электронные книги: EPUB, FB2, …
- Изображения штрих-кода: JPG, PNG, …
- Полный список указан в документации.
Однако в этой статье мы будем использовать его GroupDocs.Parser for Java только для извлечения текста из файлов MD с использованием Java.
Вы можете загрузить файл JAR из раздела загрузок или просто получить репозиторий и конфигурации зависимостей для pom.xml ваших приложений Java на основе maven.
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.6</version>
</dependency>
Извлечь текст из файла Markdown в Java
Ниже приведены шаги для извлечения всего текстового содержимого из файла уценки в Java.
- Загрузите файл MD с помощью класса Parser.
- Извлеките весь текст в TextReader с помощью метода getText.
- Используйте текст по своему усмотрению.
Следующий исходный код Java извлекает текстовое содержимое файла MD.
// Извлечь весь текст файла Markdown в Java
try (Parser parser = new Parser("/path/document.md"))
{
TextReader reader = parser.getText()
System.out.println(reader.readToEnd());
}
Получите бесплатную лицензию API
Вы можете получить бесплатную временную лицензию, чтобы использовать API без ограничений пробной версии.
Вывод
Подводя итог, статья объяснила простой и быстрый способ извлечения текста из файлов уценки в Java. Такой подход мог натолкнуть вас на мысль о разработке приложения для извлечения текста и анализа документов, подобного онлайн-анализатору документов, разработанному GroupDocs.
Вы можете узнать больше о парсинге документов Java API, используя его документацию. Быстрый способ научиться — изучить примеры, доступные на GitHub. Свяжитесь с нами по любому вопросу через форум.