Розробники часто мають вимоги видобувати текст із різних документів. Ми вже обговорювали розпакування ZIP-архівів, підрахунок слів у документах, вилучення зображень з електронних книг та кілька інших способів розбору. Сьогодні в цій статті ви дізнаєтеся, як аналізувати та витягувати текст із файлів Markdown у Java.

Витягніть текст із файлів MD за допомогою C#.jpg

Java API для вилучення тексту Markdown

GroupDocs надає API Java для аналізу документів і вилучення тексту з різних форматів документів у програмах Java. API підтримує аналіз багатьох форматів файлів, наприклад:

  • Текстові документи: DOC, DOCX, …
  • Електронні таблиці: XLS, XLSX, …
  • Презентації: PPT, PPTX, ….
  • Електронні книги: EPUB, FB2, …
  • Зображення штрих-кодів: JPG, PNG, …
  • Повний список згадано в документації.

У цій статті ми будемо використовувати його GroupDocs.Parser for Java лише для отримання тексту з файлів MD за допомогою Java.

Ви можете завантажити файл JAR із розділу завантажень або просто отримати репозиторій і конфігурації залежностей для pom.xml ваших програм Java на основі Maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Витягніть текст із файлу Markdown у Java

Нижче наведено кроки для вилучення всього текстового вмісту з файлу розмітки в Java.

  • Завантажте файл MD за допомогою класу Parser.
  • Витягніть увесь текст у TextReader за допомогою методу getText.
  • Використовуйте текст за бажанням.

Наведений нижче вихідний код Java витягує текстовий вміст файлу MD.

// Витягніть увесь текст файлу Markdown у Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Отримайте безкоштовну ліцензію API

Ви можете отримати безкоштовну тимчасову ліцензію, щоб використовувати API без оціночних обмежень.

Висновок

Підводячи підсумок, у статті пояснюється основний і швидкий спосіб вилучення тексту з файлів розмітки в Java. Цей підхід, можливо, дозволив вам розробити свою програму для вилучення тексту та аналізатора документів, наприклад Online Document Parser, розроблену GroupDocs.

Ви можете дізнатися більше про розбір документа Java API, використовуючи його документацію. Швидкий спосіб навчитися – ознайомитися з прикладами, доступними на GitHub. Зв’яжіться з нами для будь-якого запиту через форум.

Дивись також