PDF to format pliku używany do prezentowania dokumentów w sposób niezależny od aplikacji, sprzętu i systemu operacyjnego używanego do ich tworzenia lub przeglądania. Jednak pliki PDF nie są łatwe do edycji i nie nadają się dobrze do stron internetowych. Konwersja pliku PDF na HTML umożliwia łatwą edycję, wyszukiwanie i indeksowanie zawartości dokumentu przez wyszukiwarki, a także umożliwia łatwiejsze przeglądanie dokumentu w Internecie. W tym artykule dowiemy się, jak konwertować dokumenty PDF do formatu PDF za pomocą języka C#.
.NET API do konwersji plików PDF do formatu HTML
GroupDocs zapewnia rozwiązanie do konwersji dokumentów, które umożliwia programistom automatyzację. Pomaga programistom w konwersji różnych dokumentów i formatów obrazów dzięki wydajnemu i niezawodnemu interfejsowi API .NET. Dzisiaj użyję jego API GroupDocs.Conversion for .NET do konwersji dokumentów PDF na format HTML.
Możesz pobrać instalator bibliotek DLL lub MSI z sekcji pobierania lub zainstalować interfejs API w swojej aplikacji .NET za pośrednictwem NuGet.
PM> Install-Package GroupDocs.Conversion
Jak przekonwertować plik PDF na HTML za pomocą C#
Zacznijmy od podstawowej konwersji pliku PDF do formatu HTML przy użyciu języka C#. Poniższe kroki przekształcą wszystkie strony pliku PDF w format HTML.
- Załaduj plik PDF przy użyciu klasy Converter.
- Wywołaj metodę Convert, aby przekształcić załadowany dokument do formatu PDF.
Poniższy kod C# konwertuje cały dokument PDF na format HTML.
using GroupDocs.Conversion.Options.Convert;
...
// Konwertuj PDF na HTML za pomocą C#
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
var options = new WebConvertOptions();
converter.Convert("path/converted-pdf-to.html", options);
}
Konwertuj wybrane strony dokumentów PDF chronionych hasłem za pomocą języka C#
Możesz także konwertować chronione lub zablokowane dokumenty PDF. Poniższe kroki pokazują, jak przekonwertować wybrane strony zablokowanego dokumentu PDF na format HTML przy użyciu języka C#.
- Przygotuj opcje ładowania za pomocą klasy PdfLoadOptions.
- Teraz załaduj plik PDF za pomocą klasy Converter.
- Przygotuj opcje konwersji dla formatu HTML za pomocą klasy WebConvertOptions.
- Zdefiniuj listę stron kandydujących do konwersji, używając stron, numeru strony, liczby stron, powiększenia i innych właściwości.
- Na koniec użyj metody Convert, aby przekształcić załadowany plik PDF do formatu HTML.
Poniższy kod C# konwertuje wybrane strony dokumentu PDF chronionego hasłem na format HTML.
// Konwertuj wybrane strony chronionego hasłem pliku PDF na HTML za pomocą C#
using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...
Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
Password = "file-password_123"
};
using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
// Przygotuj opcje konwersji
WebConvertOptions options = new WebConvertOptions
{
PageNumber = 2,
FixedLayout = true,
PagesCount = 1,
FixedLayoutShowBorders = false
};
converter.Convert("path/converted-adv-pdf-to-.html", options);
}
Wniosek
Na zakończenie artykułu omówiliśmy konwersję plików PDF do HTML przy użyciu języka C#. Oddzielnie wdrożyliśmy dwie różne konwersje. Najpierw przekonwertowaliśmy cały dokument, korzystając z domyślnych opcji konwersji. Ponadto przekonwertowaliśmy wybrane strony dokumentu chronionego hasłem na format HTML przy użyciu tego samego interfejsu API platformy .NET.
Możesz dowiedzieć się więcej o interfejsie .NET Conversion Automation API, korzystając z dokumentacji, API Reference lub zapoznając się z przykładami GitHub. Możesz skontaktować się z nami w każdej sprawie za pośrednictwem forum.