PDF — это формат файла, который используется для представления документов способом, независимым от прикладного программного обеспечения, оборудования и операционной системы, используемых для их создания или просмотра. Однако PDF-файлы нелегко редактировать и они плохо подходят для веб-страниц. Преобразование PDF в HTML позволяет легко редактировать, искать и индексировать содержимое документа поисковыми системами, а также упрощает просмотр документа в Интернете. В этой статье мы узнаем, как конвертировать PDF-документы в формат PDF с помощью C#.
.NET API для преобразования файлов PDF в HTML
GroupDocs предоставляет решение для преобразования документов, позволяющее разработчикам автоматизировать работу. Он помогает программистам преобразовывать различные форматы документов и изображений благодаря эффективному и надежному .NET API. Сегодня я буду использовать его GroupDocs.Conversion for .NET API для преобразования документов PDF в формат HTML.
Вы можете загрузить библиотеки DLL или установщик MSI из раздела загрузок или установить API в своем приложении .NET через NuGet.
PM> Install-Package GroupDocs.Conversion
Как преобразовать PDF в HTML с помощью C#
Начнем с простого преобразования файла PDF в формат HTML с помощью C#. Следующие шаги преобразуют все страницы файла PDF в HTML.
- Загрузите файл PDF с помощью класса Converter.
- Вызовите метод Convert, чтобы преобразовать загруженный документ в формат PDF.
Следующий код C# преобразует весь PDF-документ в HTML.
using GroupDocs.Conversion.Options.Convert;
...
// Преобразование PDF в HTML с помощью C#
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
var options = new WebConvertOptions();
converter.Convert("path/converted-pdf-to.html", options);
}
Преобразование выбранных страниц PDF-документов, защищенных паролем, с помощью C#
Вы также можете конвертировать защищенные или заблокированные PDF-документы. Следующие шаги показывают, как преобразовать выбранные страницы заблокированного документа PDF в формат HTML с помощью C#.
- Подготовьте параметры загрузки с помощью класса PdfLoadOptions.
- Теперь загрузите файл PDF с помощью класса Converter.
- Подготовьте параметры преобразования для формата HTML с помощью класса WebConvertOptions.
- Определите список страниц-кандидатов на преобразование, используя Pages, PageNumber, PageCount, Zoom и другие свойства.
- Наконец, используйте метод Convert для преобразования загруженного файла PDF в формат HTML.
Следующий код C# преобразует выбранные страницы защищенного паролем документа PDF в HTML.
// Преобразование выбранных страниц защищенного паролем PDF в HTML с помощью C#
using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...
Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
Password = "file-password_123"
};
using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
// Подготовьте варианты конвертации
WebConvertOptions options = new WebConvertOptions
{
PageNumber = 2,
FixedLayout = true,
PagesCount = 1,
FixedLayoutShowBorders = false
};
converter.Convert("path/converted-adv-pdf-to-.html", options);
}
Заключение
В заключение статьи мы обсудили преобразование PDF в HTML с помощью C#. Мы отдельно реализовали два разных преобразования. Сначала мы преобразовали весь документ, используя параметры преобразования по умолчанию. Кроме того, мы преобразовали выбранные страницы защищенного паролем документа в HTML, используя тот же .NET API.
Вы можете узнать больше об API автоматизации преобразования .NET, используя документацию, справочник по API или просмотрев примеры GitHub. Вы можете связаться с нами по любому вопросу через форум.