PDF — це формат файлу, який використовується для представлення документів у спосіб, який не залежить від прикладного програмного забезпечення, апаратного забезпечення та операційної системи, які використовуються для їх створення або перегляду. Однак PDF-файли нелегко редагувати і вони не дуже підходять для веб-сторінок. Перетворення PDF-файлу на HTML дозволяє пошуковим системам легко редагувати вміст документа, здійснювати пошук та індексувати його, а також дозволяє легше переглядати документ в Інтернеті. У цій статті ми дізнаємося, як конвертувати документи PDF у формат PDF за допомогою C#.

Конвертуйте PDF у HTML у CSharp.

.NET API для перетворення PDF-файлів у HTML

GroupDocs надає рішення для конвертації документів, щоб розширити можливості автоматизації розробників. Він допомагає програмістам конвертувати різні документи та формати зображень за допомогою ефективного та надійного .NET API. Сьогодні я використаю GroupDocs.Conversion for .NET API для перетворення документів PDF у формат HTML.

Ви можете завантажити DLL або інсталятор MSI із розділу завантажень або встановити API у своїй програмі .NET за допомогою NuGet.

PM> Install-Package GroupDocs.Conversion

Як перетворити PDF на HTML за допомогою C#

Почнемо з базового перетворення файлу PDF у формат HTML за допомогою C#. Наступні кроки перетворюють усі сторінки файлу PDF у HTML.

  • Завантажте PDF-файл за допомогою класу Конвертер.
  • Викличте метод Convert, щоб перетворити завантажений документ у формат PDF.

Наведений нижче код C# перетворює весь документ PDF у HTML.

using GroupDocs.Conversion.Options.Convert;
...

// Перетворення PDF на HTML за допомогою C#
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
    var options = new WebConvertOptions();
    converter.Convert("path/converted-pdf-to.html", options);
}

Перетворення вибраних сторінок захищених паролем документів PDF за допомогою C#

Ви також можете конвертувати захищені або заблоковані документи PDF. Наступні кроки показують, як перетворити вибіркові сторінки заблокованого документа PDF у формат HTML за допомогою C#.

  • Підготуйте параметри завантаження за допомогою класу PdfLoadOptions.
  • Тепер завантажте PDF-файл за допомогою класу Converter.
  • Підготуйте параметри перетворення для формату HTML за допомогою класу WebConvertOptions.
  • Визначте список сторінок-кандидатів на перетворення за допомогою сторінок, PageNumber, PageCount, Zoom та інших властивостей.
  • Нарешті, використовуйте метод Convert, щоб перетворити завантажений PDF-файл у формат HTML.

Наведений нижче код C# перетворює вибрані сторінки PDF-документа, захищеного паролем, у HTML.

// Перетворіть вибрані сторінки захищеного паролем PDF-файлу на HTML за допомогою C#

using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...

Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
    Password = "file-password_123"
};

using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
    // Підготуйте варіанти перетворення
    WebConvertOptions options = new WebConvertOptions
    {
        PageNumber = 2,
        FixedLayout = true,
        PagesCount = 1,
        FixedLayoutShowBorders = false
    };
    converter.Convert("path/converted-adv-pdf-to-.html", options);
}
Виведення PDF у HTML

Висновок

На завершення статті ми обговорили перетворення PDF у HTML за допомогою C#. Ми окремо реалізували два різних перетворення. Спочатку ми перетворили весь документ за допомогою стандартних параметрів конвертації. Крім того, ми перетворили вибрані сторінки документа, захищеного паролем, у HTML за допомогою того самого API .NET.

Ви можете дізнатися більше про .NET Conversion Automation API, використовуючи документацію, Довідник API або переглянувши приклади GitHub. Ви можете звернутися до нас із будь-яким запитом через форум.

Дивись також