Trong thời đại kỹ thuật số ngày nay, khả năng chuyển đổi tài liệu PDF sang định dạng HTML ngày càng trở nên quan trọng. Cho dù bạn là nhà phát triển đang làm việc trong dự án yêu cầu chức năng này hay người dùng đang tìm cách làm cho tài liệu PDF dễ truy cập hơn, thì việc hiểu cách chuyển đổi PDF sang HTML trong Java là điều cần thiết. Trong bài đăng trên blog này, chúng tôi sẽ hướng dẫn bạn quy trình chuyển đổi tài liệu PDF sang HTML bằng Java.

Chuyển đổi PDF sang HTML trong CSharp.

Nhà phát triển Java: API chuyển đổi PDF sang HTML

GroupDocs giới thiệu API chuyển đổi tài liệu và hình ảnh cho các nhà phát triển Java. Nó hỗ trợ một danh sách lớn các định dạng tài liệu và hình ảnh để chuyển đổi từ định dạng này sang định dạng khác. Ngoài ra, kết quả chuyển đổi cũng có thể được tùy chỉnh bằng các tùy chọn nâng cao có sẵn. Tôi sẽ sử dụng API GroupDocs.Conversion for Java để chuyển đổi tài liệu PDF sang định dạng HTML.

Tải xuống hoặc định cấu hình

Bạn có thể tải xuống tệp JAR từ phần tải xuống hoặc chỉ nhận các cấu hình phụ thuộc và kho lưu trữ cho tệp pom.xml của các ứng dụng Java dựa trên maven của bạn.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-conversion</artifactId>
        <version>22.12.1</version> 
</dependency>

Cách chuyển đổi PDF sang HTML bằng Java

Chuyển đổi PDF sang HTML bằng Java là một quá trình đơn giản. Các bước sau đây sẽ hướng dẫn bạn quy trình chuyển đổi tất cả các trang của tệp PDF sang định dạng HTML.

  • Sử dụng lớp Converter để tải tệp PDF.
  • Sử dụng phương thức Chuyển đổi để chuyển đổi tài liệu đã tải thành định dạng HTML.

Đoạn mã sau trình bày cách chuyển đổi toàn bộ tài liệu PDF thành HTML bằng Java.

import com.groupdocs.conversion.Converter;
import com.groupdocs.conversion.options.convert.MarkupConvertOptions;
...

// Chuyển đổi PDF sang HTML trong Java
Converter converter = new Converter("path/document.pdf");
converter.convert("path/converted-pdf-to.html", new MarkupConvertOptions());

Chuyển đổi các trang cụ thể của một tệp PDF được bảo mật trong Java

Cũng có thể chuyển đổi các tài liệu PDF được bảo vệ hoặc bị khóa. Các bước sau đây sẽ hướng dẫn bạn quy trình chuyển đổi các trang cụ thể của tài liệu PDF bị khóa sang định dạng HTML bằng Java.

  • Sử dụng lớp PdfLoadOptions để chuẩn bị các tùy chọn tải.
  • Tải tệp PDF bằng lớp Converter.
  • Sử dụng lớp WebConvertOptions để chuẩn bị các tùy chọn chuyển đổi cho định dạng HTML.
  • Xác định các trang cụ thể sẽ được chuyển đổi bằng cách đặt các thuộc tính như Trang, Số trang, Đếm trang, Thu phóng, v.v.
  • Cuối cùng, sử dụng phương thức Convert để chuyển đổi tệp PDF đã tải thành định dạng HTML.

Mã Java sau minh họa cách chuyển đổi các trang đã chọn của tài liệu PDF được bảo vệ bằng mật khẩu thành HTML.

// Chuyển đổi các trang đã chọn của PDF được bảo vệ bằng mật khẩu sang HTML trong Java

import com.groupdocs.conversion.Converter;
import com.groupdocs.conversion.options.convert.MarkupConvertOptions;
import com.groupdocs.conversion.options.load.PdfLoadOptions;
...
  
PdfLoadOptions loadOptions = new PdfLoadOptions();
loadOptions.setPassword("pdf-password-12345");
Converter converter = new Converter("path/protected-document.pdf", loadOptions);

MarkupConvertOptions options = new MarkupConvertOptions();
options.setPageNumber(2);
options.setFixedLayout(true);
options.setPagesCount(1);

converter.convert("path/converted-adv-pdf-to-.html", options);

Phần kết luận

Tóm lại, bài viết này đề cập đến chủ đề chuyển đổi tài liệu PDF sang HTML trong Java. Chúng tôi đã thực hiện hai cách tiếp cận khác nhau, bao gồm chuyển đổi toàn bộ tài liệu với các tùy chọn mặc định và chuyển đổi các trang cụ thể của tài liệu được bảo vệ bằng mật khẩu.

Để tìm hiểu thêm về API tự động hóa chuyển đổi Java, hãy tham khảo tài liệu, Tham chiếu API hoặc xem ví dụ GitHub. Nếu bạn có thêm bất kỳ câu hỏi nào, vui lòng liên hệ với chúng tôi qua diễn đàn.

Xem thêm