PDF — это формат файла, который используется для представления документов способом, независимым от прикладного программного обеспечения, оборудования и операционной системы, используемых для их создания или просмотра. Однако PDF-файлы нелегко редактировать и они плохо подходят для веб-страниц. Преобразование PDF в HTML позволяет легко редактировать, искать и индексировать содержимое документа поисковыми системами, а также упрощает просмотр документа в Интернете. В этой статье мы узнаем, как конвертировать PDF-документы в формат PDF с помощью C#.

Преобразование PDF в HTML в CSharp.

.NET API для преобразования файлов PDF в HTML

GroupDocs предоставляет решение для преобразования документов, позволяющее разработчикам автоматизировать работу. Он помогает программистам преобразовывать различные форматы документов и изображений благодаря эффективному и надежному .NET API. Сегодня я буду использовать его GroupDocs.Conversion for .NET API для преобразования документов PDF в формат HTML.

Вы можете загрузить библиотеки DLL или установщик MSI из раздела загрузок или установить API в своем приложении .NET через NuGet.

PM> Install-Package GroupDocs.Conversion

Как преобразовать PDF в HTML с помощью C#

Начнем с простого преобразования файла PDF в формат HTML с помощью C#. Следующие шаги преобразуют все страницы файла PDF в HTML.

  • Загрузите файл PDF с помощью класса Converter.
  • Вызовите метод Convert, чтобы преобразовать загруженный документ в формат PDF.

Следующий код C# преобразует весь PDF-документ в HTML.

using GroupDocs.Conversion.Options.Convert;
...

// Преобразование PDF в HTML с помощью C#
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
    var options = new WebConvertOptions();
    converter.Convert("path/converted-pdf-to.html", options);
}

Преобразование выбранных страниц PDF-документов, защищенных паролем, с помощью C#

Вы также можете конвертировать защищенные или заблокированные PDF-документы. Следующие шаги показывают, как преобразовать выбранные страницы заблокированного документа PDF в формат HTML с помощью C#.

  • Подготовьте параметры загрузки с помощью класса PdfLoadOptions.
  • Теперь загрузите файл PDF с помощью класса Converter.
  • Подготовьте параметры преобразования для формата HTML с помощью класса WebConvertOptions.
  • Определите список страниц-кандидатов на преобразование, используя Pages, PageNumber, PageCount, Zoom и другие свойства.
  • Наконец, используйте метод Convert для преобразования загруженного файла PDF в формат HTML.

Следующий код C# преобразует выбранные страницы защищенного паролем документа PDF в HTML.

// Преобразование выбранных страниц защищенного паролем PDF в HTML с помощью C#

using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...

Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
    Password = "file-password_123"
};

using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
    // Подготовьте варианты конвертации
    WebConvertOptions options = new WebConvertOptions
    {
        PageNumber = 2,
        FixedLayout = true,
        PagesCount = 1,
        FixedLayoutShowBorders = false
    };
    converter.Convert("path/converted-adv-pdf-to-.html", options);
}
Вывод PDF в HTML

Заключение

В заключение статьи мы обсудили преобразование PDF в HTML с помощью C#. Мы отдельно реализовали два разных преобразования. Сначала мы преобразовали весь документ, используя параметры преобразования по умолчанию. Кроме того, мы преобразовали выбранные страницы защищенного паролем документа в HTML, используя тот же .NET API.

Вы можете узнать больше об API автоматизации преобразования .NET, используя документацию, справочник по API или просмотрев примеры GitHub. Вы можете связаться с нами по любому вопросу через форум.

Смотрите также