Pengembang sering memiliki persyaratan untuk mengekstrak teks dari berbagai dokumen. Kami telah membahas mengekstrak arsip ZIP, menghitung kata dalam dokumen, mengekstrak gambar dari eBook, dan beberapa cara penguraian lainnya. Hari ini, dalam artikel ini, Anda akan belajar cara mem-parsing dan mengekstrak teks dari file Markdown di Java.

Ekstrak teks dari file MD menggunakan C#.jpg

Java API untuk Ekstraksi Teks Markdown

GroupDocs menyediakan Java API untuk mengurai dokumen dan mengekstrak teks dari berbagai format dokumen dalam aplikasi Java. API mendukung penguraian banyak format file seperti:

  • Dokumen pengolah kata: DOC, DOCX, …
  • Spreadsheet: XLS, XLSX, …
  • Presentasi: PPT, PPTX, ….
  • eBuku: EPUB, FB2, …
  • Gambar kode batang: JPG, PNG, …
  • Daftar lengkapnya disebutkan di dokumentasi.

Namun, dalam artikel ini, kami akan menggunakan GroupDocs.Parser for Java hanya mengekstrak teks dari file MD menggunakan Java.

Anda dapat mengunduh file JAR dari bagian unduhan, atau hanya mendapatkan konfigurasi repositori dan ketergantungan untuk pom.xml aplikasi Java berbasis maven Anda.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Ekstrak Teks dari File Markdown di Java

Berikut ini adalah langkah-langkah untuk mengekstrak seluruh konten teks dari file markdown di Java.

  • Muat file MD menggunakan kelas Parser.
  • Ekstrak seluruh teks ke dalam TextReader menggunakan metode getText.
  • Gunakan teks sesuai keinginan.

Kode sumber Java berikut mengekstrak konten tekstual dari file MD.

// Ekstrak seluruh Teks dari file Markdown di Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Dapatkan Lisensi API Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk menggunakan API tanpa batasan evaluasi.

Kesimpulan

Singkatnya, artikel tersebut menjelaskan cara dasar dan cepat untuk mengekstrak teks dari file markdown di Java. Pendekatan ini mungkin membuat Anda berpikir untuk mengembangkan ekstraksi teks dan aplikasi parser dokumen seperti Online Document Parser yang dikembangkan oleh GroupDocs.

Anda dapat mempelajari lebih lanjut tentang penguraian dokumen Java API menggunakan dokumentasi. Cara cepat untuk mempelajarinya adalah dengan mencoba contoh yang tersedia di GitHub. Hubungi kami untuk pertanyaan apa pun melalui forum.

Lihat juga