Chuyển đổi tài liệu Word thành Markdown trong Java

Sự hỗ trợ của các tệp đánh dấu bởi các trình soạn thảo xử lý văn bản đã tăng mức sử dụng của nó ở quy mô lớn. Do đó, việc chuyển đổi nội dung văn bản hiện có sang định dạng markdown thường được yêu cầu. Bài viết này thảo luận về cách lập trình chuyển đổi các tài liệu Word thành các tệp đánh dấu trong Java. Gần đây, chúng ta đã thảo luận về một số chủ đề liên quan sau:

API Java để phân tích cú pháp và chuyển đổi tệp Markdown

GroupDocs cung cấp các API cho phép phân tích cú pháp tài liệu Word và chuyển đổi nó thành các định dạng khác trong các ứng dụng. Chúng tôi sẽ sử dụng API Java của nó để phân tích cú pháp và chuyển đổi tệp Word DOC/DOCX thành tệp MD. Hơn nữa, API hỗ trợ phân tích cú pháp nhiều định dạng tệp khác như PDF, bảng tính, bản trình bày, sách điện tử, tài liệu đánh dấu, thư email, hình ảnh và nhiều định dạng khác được đề cập trong tài liệu.

Bạn có thể tải xuống tệp JAR từ phần tải xuống hoặc sử dụng cấu hình phụ thuộc và kho lưu trữ mới nhất trong các ứng dụng Java dựa trên Maven của bạn.

<repository>
    <id>groupdocs-artifacts-repository</id>
    <name>GroupDocs Artifacts Repository</name>
    <url>https://releases.groupdocs.com/java/repo/</url>
</repository>
<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser</artifactId>
    <version>22.6</version>
</dependency>

Cách chuyển đổi Word thành Markdown trong Java

Tại sao không chuyển thẳng đến chủ đề bạn quan tâm và hãy chuyển đổi tài liệu Microsoft Word sang định dạng đánh dấu? Các bước sau đây cho thấy cách chuyển đổi Word DOC/DOCX thành Markdown trong Java.

  • Tải tệp MS Word bằng lớp Parser.
  • Nhận văn bản được định dạng của tệp đã tải bằng cách sử dụng lớp FormattedTextOptions và chế độ Markdown.
  • Đọc toàn bộ nội dung bằng phương thức readToEnd.
  • Chuyển đổi nó sang định dạng markdown bằng cách ghi nội dung vào tệp MD bằng phương thức ghi của lớp FileWriter.

Mã nguồn Java sau đây chuyển đổi MS Word thành tệp Markdown.

import java.io.FileWriter;
import java.io.IOException;
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import com.groupdocs.parser.options.*;
...
...
try (Parser parser = new Parser("/path/document.docx")) {
    try (TextReader reader = parser.getFormattedText(new FormattedTextOptions(FormattedTextMode.Markdown))) {
        String content = reader.readToEnd();
        try {
            FileWriter myWriter = new FileWriter("/path/word-to-markdown.md");
            myWriter.write(content);
            myWriter.close();
        }
        catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Nhận giấy phép API miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để sử dụng API mà không bị giới hạn đánh giá.

Sự kết luận

Tóm lại, chúng ta đã học cách chuyển đổi các tệp Word sang định dạng markdown trong Java trong các ứng dụng. Bạn có thể sử dụng tính năng này trong ứng dụng của mình. Bạn có thể mở rộng ứng dụng của mình bằng cách sử dụng các tính năng có sẵn khác của API.

Tìm hiểu thêm về Java Parser API bằng cách sử dụng tài liệu của nó và bằng cách trải nghiệm các ví dụ có sẵn trên GitHub. Liên hệ với chúng tôi nếu có bất kỳ thắc mắc nào qua diễn đàn.

Xem thêm