Deweloperzy często mają wymagania dotyczące wyodrębniania tekstu z różnych dokumentów. Omówiliśmy już rozpakowywanie archiwów ZIP, liczenie słów w dokumentach, wyodrębnianie obrazów z eBooków i kilka innych sposobów analizowania. Dzisiaj w tym artykule dowiesz się, jak parsować i wyodrębniać tekst z plików Markdown w Javie.
Java API do ekstrakcji tekstu Markdown
GroupDocs zapewnia Java API do analizowania dokumentów i wyodrębniania tekstu z różnych formatów dokumentów w aplikacjach Java. API obsługuje parsowanie wielu formatów plików, takich jak:
- Przetwarzanie tekstu Dokumenty: DOC, DOCX, …
- Arkusze kalkulacyjne: XLS, XLSX, …
- Prezentacje: PPT, PPTX, ….
- eBooki: EPUB, FB2, …
- Obrazy z kodami kreskowymi: JPG, PNG, …
- Pełna lista znajduje się w dokumentacji.
W tym artykule użyjemy jego GroupDocs.Parser for Java, aby wyodrębnić tylko tekst z plików MD przy użyciu Java.
Możesz pobrać plik JAR z sekcji pobierania lub po prostu pobrać repozytorium i konfiguracje zależności dla pliku pom.xml aplikacji Java opartych na Maven.
<repository>
<id>groupdocs-artifacts-repository</id>
<name>GroupDocs Artifacts Repository</name>
<url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.6</version>
</dependency>
Wyodrębnij tekst z pliku Markdown w Javie
Poniżej przedstawiono kroki, aby wyodrębnić całą treść tekstową z pliku przeceny w Javie.
- Załaduj plik MD przy użyciu klasy Parser.
- Wyodrębnij cały tekst do TextReadera za pomocą metody getText.
- Użyj tekstu, jak chcesz.
Poniższy kod źródłowy języka Java wyodrębnia zawartość tekstową pliku MD.
// Wyodrębnij cały tekst pliku Markdown w Javie
try (Parser parser = new Parser("/path/document.md"))
{
TextReader reader = parser.getText()
System.out.println(reader.readToEnd());
}
Uzyskaj bezpłatną licencję API
Możesz uzyskać bezpłatną tymczasową licencję na korzystanie z API bez ograniczeń ewaluacyjnych.
Wniosek
Podsumowując, w artykule wyjaśniono podstawowy i szybki sposób wyodrębniania tekstu z plików markdown w Javie. Takie podejście mogło pozwolić Ci pomyśleć o opracowaniu aplikacji do wyodrębniania tekstu i analizowania dokumentów, takiej jak Online Document Parser opracowany przez GroupDocs.
Możesz dowiedzieć się więcej o parsowaniu dokumentów Java API za pomocą jego documentation. Szybkim sposobem nauki jest zapoznanie się z przykładami dostępnymi na GitHub. Skontaktuj się z nami w przypadku jakichkolwiek pytań za pośrednictwem forum.