PDF là định dạng tệp được sử dụng để trình bày tài liệu theo cách độc lập với phần mềm ứng dụng, phần cứng và hệ điều hành được sử dụng để tạo hoặc xem chúng. Tuy nhiên, các tệp PDF không dễ chỉnh sửa và không phù hợp cho các trang web. Chuyển đổi PDF sang HTML cho phép nội dung của tài liệu dễ dàng được chỉnh sửa, tìm kiếm và lập chỉ mục bởi các công cụ tìm kiếm và cho phép xem tài liệu dễ dàng hơn trên web. Trong bài viết này, chúng ta sẽ tìm hiểu cách chuyển đổi tài liệu PDF sang định dạng PDF bằng C#.

Chuyển đổi PDF sang HTML trong CSharp.

.NET API để chuyển đổi tệp PDF sang HTML

GroupDocs cung cấp giải pháp chuyển đổi tài liệu để trao quyền tự động hóa cho các nhà phát triển. Nó giúp các lập trình viên chuyển đổi các định dạng tài liệu và hình ảnh khác nhau bằng API .NET hiệu quả và đáng tin cậy. Hôm nay, tôi sẽ sử dụng API GroupDocs.Conversion for .NET để chuyển đổi tài liệu PDF sang định dạng HTML.

Bạn có thể tải xuống trình cài đặt DLL hoặc MSI từ phần tải xuống hoặc cài đặt API trong ứng dụng .NET của bạn qua NuGet.

PM> Install-Package GroupDocs.Conversion

Cách chuyển đổi PDF sang HTML bằng C#

Hãy bắt đầu với việc chuyển đổi cơ bản một tệp PDF sang định dạng HTML bằng C#. Các bước sau đây chuyển đổi tất cả các trang của tệp PDF thành HTML.

  • Tải tệp PDF bằng lớp Converter.
  • Gọi phương thức Convert để chuyển đổi tài liệu đã tải thành định dạng PDF.

Mã C# sau đây chuyển đổi toàn bộ tài liệu PDF thành HTML.

using GroupDocs.Conversion.Options.Convert;
...

// Chuyển đổi PDF sang HTML bằng C#
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
    var options = new WebConvertOptions();
    converter.Convert("path/converted-pdf-to.html", options);
}

Chuyển đổi các trang đã chọn của tài liệu PDF được bảo vệ bằng mật khẩu bằng C#

Bạn cũng có thể chuyển đổi các tài liệu PDF được bảo vệ hoặc bị khóa. Các bước sau đây cho biết cách chuyển đổi các trang chọn lọc của tài liệu PDF bị khóa thành định dạng HTML bằng C#.

  • Chuẩn bị các tùy chọn tải bằng lớp PdfLoadOptions.
  • Bây giờ, hãy tải tệp PDF bằng lớp Converter.
  • Chuẩn bị các tùy chọn chuyển đổi cho định dạng HTML bằng lớp WebConvertOptions.
  • Xác định danh sách các trang ứng cử viên chuyển đổi bằng cách sử dụng Trang, Số trang, Đếm trang, Thu phóng và các thuộc tính khác.
  • Cuối cùng, sử dụng phương thức Convert để chuyển đổi tệp PDF đã tải thành định dạng HTML.

Mã C# sau đây chuyển đổi các trang đã chọn của tài liệu PDF được bảo vệ bằng mật khẩu thành HTML.

// Chuyển đổi các trang đã chọn của PDF được bảo vệ bằng mật khẩu sang HTML bằng C#

using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...

Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
    Password = "file-password_123"
};

using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
    // Chuẩn bị các tùy chọn chuyển đổi
    WebConvertOptions options = new WebConvertOptions
    {
        PageNumber = 2,
        FixedLayout = true,
        PagesCount = 1,
        FixedLayoutShowBorders = false
    };
    converter.Convert("path/converted-adv-pdf-to-.html", options);
}
Đầu ra PDF sang HTML

Phần kết luận

Để kết thúc bài viết, chúng tôi đã thảo luận về chuyển đổi PDF sang HTML bằng C#. Chúng tôi đã thực hiện riêng hai chuyển đổi khác nhau. Đầu tiên, chúng tôi đã chuyển đổi toàn bộ tài liệu bằng các tùy chọn chuyển đổi mặc định. Ngoài ra, chúng tôi đã chuyển đổi các trang đã chọn của tài liệu được bảo vệ bằng mật khẩu thành HTML bằng cách sử dụng cùng một API .NET.

Bạn có thể tìm hiểu thêm về API tự động chuyển đổi .NET bằng cách sử dụng tài liệu, Tham khảo API hoặc bằng cách trải nghiệm ví dụ GitHub. Bạn có thể liên hệ với chúng tôi nếu có bất kỳ câu hỏi nào thông qua diễn đàn.

Xem thêm