PDF 是一种文件格式,用于以独立于用于创建或查看它们的应用程序软件、硬件和操作系统的方式呈现文档。但是,PDF 不容易编辑,也不适合网页。将 PDF 转换为 HTML 可以让搜索引擎轻松地编辑、搜索和索引文档的内容,并且可以更轻松地在 Web 上查看文档。在本文中,我们将学习如何使用 C# 将 PDF 文档转换为 PDF 格式。

在 CSharp 中将 PDF 转换为 HTML。

.NET API 将 PDF 文件转换为 HTML

GroupDocs 提供了一种文档转换解决方案,使开发人员能够实现自动化。它通过其高效可靠的 .NET API 帮助程序员转换各种文档和图像格式。今天,我将使用其 GroupDocs.Conversion for .NET API 将 PDF 文档转换为 HTML 格式。

您可以从 下载部分 下载 DLL 或 MSI 安装程序,或通过 NuGet 在您的 .NET 应用程序中安装 API。

PM> Install-Package GroupDocs.Conversion

如何使用 C# 将 PDF 转换为 HTML

让我们从使用 C# 将 PDF 文件基本转换为 HTML 格式开始。以下步骤将 PDF 文件的所有页面转换为 HTML。

  • 使用 Converter 类加载 PDF 文件。
  • 调用 Convert 方法将加载的文档转换为 PDF 格式。

以下 C# 代码将整个 PDF 文档转换为 HTML。

using GroupDocs.Conversion.Options.Convert;
...

// 使用 C# 将 PDF 转换为 HTML
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
    var options = new WebConvertOptions();
    converter.Convert("path/converted-pdf-to.html", options);
}

使用 C# 转换受密码保护的 PDF 文档的选定页面

您还可以转换受保护或锁定的 PDF 文档。以下步骤显示如何使用 C# 将锁定的 PDF 文档的选定页面转换为 HTML 格式。

  • 使用 PdfLoadOptions 类准备加载选项。
  • 现在,使用 Converter 类加载 PDF 文件。
  • 使用 WebConvertOptions 类为 HTML 格式准备转换选项。
  • 使用 Pages、PageNumber、PageCount、Zoom 和其他属性定义转换候选页面列表。
  • 最后,使用 Convert 方法将加载的 PDF 文件转换为 HTML 格式。

以下 C# 代码将受密码保护的 PDF 文档的选定页面转换为 HTML。

// 使用 C# 将受密码保护的 PDF 的选定页面转换为 HTML

using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...

Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
    Password = "file-password_123"
};

using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
    // 准备转换选项
    WebConvertOptions options = new WebConvertOptions
    {
        PageNumber = 2,
        FixedLayout = true,
        PagesCount = 1,
        FixedLayoutShowBorders = false
    };
    converter.Convert("path/converted-adv-pdf-to-.html", options);
}
PDF 到 HTML 输出

结论

在结束本文时,我们讨论了使用 C# 将 PDF 转换为 HTML。我们分别实现了两种不同的转换。首先,我们使用默认转换选项转换了整个文档。此外,我们使用相同的 .NET API 将受密码保护的文档的选定页面转换为 HTML。

您可以使用 文档API 参考 或体验 GitHub 示例 来了解有关 .NET Conversion Automation API 的更多信息。您可以通过 论坛 联系我们进行任何查询。

也可以看看