在当今的数字时代,将 PDF 文档转换为 HTML 格式的能力变得越来越重要。无论您是从事需要此功能的项目的开发人员,还是希望使 PDF 文档更易于访问的用户,了解如何在 Java 中将 PDF 转换为 HTML 都是必不可少的。在这篇博文中,我们将引导您完成使用 Java 将 PDF 文档转换为 HTML 的过程。

在 CSharp 中将 PDF 转换为 HTML。

Java 开发人员:PDF 到 HTML 转换 API

GroupDocs 为 Java 开发人员展示了文档和图像转换 API。它支持从一种格式转换为另一种格式的大量文档和图像格式。此外,还可以使用可用的高级选项自定义转换结果。我将使用其 GroupDocs.Conversion for Java API 将 PDF 文档转换为 HTML 格式。

下载或配置

您可以从 下载部分 下载 JAR 文件,或者只获取基于 maven 的 Java 应用程序的 pom.xml 的存储库和依赖项配置。

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-conversion</artifactId>
        <version>22.12.1</version> 
</dependency>

如何使用 Java 将 PDF 转换为 HTML

使用 Java 将 PDF 转换为 HTML 是一个简单的过程。以下步骤将指导您完成将 PDF 文件的所有页面转换为 HTML 格式的过程。

  • 使用 Converter 类加载 PDF 文件。
  • 使用 Convert 方法将加载的文档转换为 HTML 格式。

以下代码演示了如何使用 Java 将整个 PDF 文档转换为 HTML。

import com.groupdocs.conversion.Converter;
import com.groupdocs.conversion.options.convert.MarkupConvertOptions;
...

// 在 Java 中将 PDF 转换为 HTML
Converter converter = new Converter("path/document.pdf");
converter.convert("path/converted-pdf-to.html", new MarkupConvertOptions());

在 Java 中转换受保护的 PDF 的特定页面

也可以转换受保护或锁定的 PDF 文档。以下步骤将指导您完成使用 Java 将锁定的 PDF 文档的特定页面转换为 HTML 格式的过程。

  • 使用 PdfLoadOptions 类准备加载选项。
  • 使用 Converter 类加载 PDF 文件。
  • 使用 WebConvertOptions 类为 HTML 格式准备转换选项。
  • 通过设置 Pages、PageNumber、PageCount、Zoom 等属性来定义要转换的特定页面。
  • 最后,使用 Convert 方法将加载的 PDF 文件转换为 HTML 格式。

以下 Java 代码演示了如何将受密码保护的 PDF 文档的选定页面转换为 HTML。

// 在 Java 中将受密码保护的 PDF 的选定页面转换为 HTML

import com.groupdocs.conversion.Converter;
import com.groupdocs.conversion.options.convert.MarkupConvertOptions;
import com.groupdocs.conversion.options.load.PdfLoadOptions;
...
  
PdfLoadOptions loadOptions = new PdfLoadOptions();
loadOptions.setPassword("pdf-password-12345");
Converter converter = new Converter("path/protected-document.pdf", loadOptions);

MarkupConvertOptions options = new MarkupConvertOptions();
options.setPageNumber(2);
options.setFixedLayout(true);
options.setPagesCount(1);

converter.convert("path/converted-adv-pdf-to-.html", options);

结论

总之,本文涵盖了用 Java 将 PDF 文档转换为 HTML 的主题。我们介绍了两种不同的方法,包括使用默认选项转换整个文档和转换受密码保护文档的特定页面。

要了解有关 Java Conversion Automation API 的更多信息,请参阅 文档API 参考,或查看 GitHub 示例。如果您有任何其他问题,请随时通过 论坛 与我们联系。

也可以看看