Deweloperzy często mają wymagania dotyczące wyodrębniania tekstu z różnych dokumentów. Omówiliśmy już rozpakowywanie archiwów ZIP, liczenie słów w dokumentach, wyodrębnianie obrazów z eBooków i kilka innych sposobów analizowania. Dzisiaj w tym artykule dowiesz się, jak parsować i wyodrębniać tekst z plików Markdown w Javie.

Wyodrębnij tekst z plików MD za pomocą C#.jpg

Java API do ekstrakcji tekstu Markdown

GroupDocs zapewnia Java API do analizowania dokumentów i wyodrębniania tekstu z różnych formatów dokumentów w aplikacjach Java. API obsługuje parsowanie wielu formatów plików, takich jak:

  • Przetwarzanie tekstu Dokumenty: DOC, DOCX, …
  • Arkusze kalkulacyjne: XLS, XLSX, …
  • Prezentacje: PPT, PPTX, ….
  • eBooki: EPUB, FB2, …
  • Obrazy z kodami kreskowymi: JPG, PNG, …
  • Pełna lista znajduje się w dokumentacji.

W tym artykule użyjemy jego GroupDocs.Parser for Java, aby wyodrębnić tylko tekst z plików MD przy użyciu Java.

Możesz pobrać plik JAR z sekcji pobierania lub po prostu pobrać repozytorium i konfiguracje zależności dla pliku pom.xml aplikacji Java opartych na Maven.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Wyodrębnij tekst z pliku Markdown w Javie

Poniżej przedstawiono kroki, aby wyodrębnić całą treść tekstową z pliku przeceny w Javie.

  • Załaduj plik MD przy użyciu klasy Parser.
  • Wyodrębnij cały tekst do TextReadera za pomocą metody getText.
  • Użyj tekstu, jak chcesz.

Poniższy kod źródłowy języka Java wyodrębnia zawartość tekstową pliku MD.

// Wyodrębnij cały tekst pliku Markdown w Javie
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Uzyskaj bezpłatną licencję API

Możesz uzyskać bezpłatną tymczasową licencję na korzystanie z API bez ograniczeń ewaluacyjnych.

Wniosek

Podsumowując, w artykule wyjaśniono podstawowy i szybki sposób wyodrębniania tekstu z plików markdown w Javie. Takie podejście mogło pozwolić Ci pomyśleć o opracowaniu aplikacji do wyodrębniania tekstu i analizowania dokumentów, takiej jak Online Document Parser opracowany przez GroupDocs.

Możesz dowiedzieć się więcej o parsowaniu dokumentów Java API za pomocą jego documentation. Szybkim sposobem nauki jest zapoznanie się z przykładami dostępnymi na GitHub. Skontaktuj się z nami w przypadku jakichkolwiek pytań za pośrednictwem forum.

Zobacz też