Các nhà phát triển thường có yêu cầu trích xuất văn bản từ các tài liệu khác nhau. Chúng ta đã thảo luận về việc trích xuất các tệp lưu trữ ZIP, đếm từ trong tài liệu, trích xuất hình ảnh từ sách điện tử và một số cách phân tích cú pháp khác. Hôm nay, trong bài viết này, bạn sẽ học cách phân tích cú pháp và trích xuất văn bản từ tệp Markdown trong Java.

Trích xuất văn bản từ các tệp MD bằng C#.jpg

API Java để trích xuất văn bản Markdown

GroupDocs cung cấp API Java để phân tích tài liệu và trích xuất văn bản từ các định dạng tài liệu khác nhau trong các ứng dụng Java. API hỗ trợ phân tích cú pháp nhiều định dạng tệp như:

  • Tài liệu soạn thảo văn bản: DOC, DOCX, …
  • Bảng tính: XLS, XLSX, …
  • Trình chiếu: PPT, PPTX, ….
  • Sách điện tử: EPUB, FB2,…
  • Hình ảnh mã vạch: JPG, PNG,…
  • Danh sách đầy đủ được đề cập trong tài liệu.

Tuy nhiên, trong bài viết này, chúng tôi sẽ sử dụng GroupDocs.Parser dành cho Java của nó để chỉ trích xuất văn bản từ các tệp MD bằng Java.

Bạn có thể tải xuống tệp JAR từ phần tải xuống hoặc chỉ lấy cấu hình kho lưu trữ và phần phụ thuộc cho tệp pom.xml của các ứng dụng Java dựa trên maven của bạn.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Trích xuất văn bản từ tệp Markdown trong Java

Sau đây là các bước để trích xuất toàn bộ nội dung văn bản từ tệp đánh dấu trong Java.

  • Tải tệp MD bằng lớp Parser.
  • Trích xuất toàn bộ văn bản vào TextReader bằng phương thức getText.
  • Sử dụng văn bản như bạn muốn.

Mã nguồn Java sau trích xuất nội dung văn bản của tệp MD.

// Trích xuất toàn bộ Văn bản của tệp Markdown trong Java
try (Parser parser = new Parser("/path/document.md")) 
{
  TextReader reader = parser.getText()
	System.out.println(reader.readToEnd());
}

Nhận giấy phép API miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để sử dụng API mà không bị giới hạn đánh giá.

Sự kết luận

Tóm lại, bài viết đã giải thích cách cơ bản và nhanh chóng để trích xuất văn bản từ các tệp đánh dấu trong Java. Cách tiếp cận này có thể giúp bạn suy nghĩ để phát triển ứng dụng trích xuất văn bản và trình phân tích cú pháp tài liệu của mình, chẳng hạn như Trình phân tích cú pháp tài liệu trực tuyến do GroupDocs phát triển.

Bạn có thể tìm hiểu thêm về cách phân tích cú pháp tài liệu Java API bằng cách sử dụng tài liệu của nó. Cách nhanh chóng để tìm hiểu là trải nghiệm các ví dụ có sẵn trên GitHub. Liên hệ với chúng tôi nếu có bất kỳ thắc mắc nào qua diễn đàn.

Xem thêm