PDF to format pliku używany do prezentowania dokumentów w sposób niezależny od aplikacji, sprzętu i systemu operacyjnego używanego do ich tworzenia lub przeglądania. Jednak pliki PDF nie są łatwe do edycji i nie nadają się dobrze do stron internetowych. Konwersja pliku PDF na HTML umożliwia łatwą edycję, wyszukiwanie i indeksowanie zawartości dokumentu przez wyszukiwarki, a także umożliwia łatwiejsze przeglądanie dokumentu w Internecie. W tym artykule dowiemy się, jak konwertować dokumenty PDF do formatu PDF za pomocą języka C#.

Konwertuj PDF na HTML w CSharp.

.NET API do konwersji plików PDF do formatu HTML

GroupDocs zapewnia rozwiązanie do konwersji dokumentów, które umożliwia programistom automatyzację. Pomaga programistom w konwersji różnych dokumentów i formatów obrazów dzięki wydajnemu i niezawodnemu interfejsowi API .NET. Dzisiaj użyję jego API GroupDocs.Conversion for .NET do konwersji dokumentów PDF na format HTML.

Możesz pobrać instalator bibliotek DLL lub MSI z sekcji pobierania lub zainstalować interfejs API w swojej aplikacji .NET za pośrednictwem NuGet.

PM> Install-Package GroupDocs.Conversion

Jak przekonwertować plik PDF na HTML za pomocą C#

Zacznijmy od podstawowej konwersji pliku PDF do formatu HTML przy użyciu języka C#. Poniższe kroki przekształcą wszystkie strony pliku PDF w format HTML.

  • Załaduj plik PDF przy użyciu klasy Converter.
  • Wywołaj metodę Convert, aby przekształcić załadowany dokument do formatu PDF.

Poniższy kod C# konwertuje cały dokument PDF na format HTML.

using GroupDocs.Conversion.Options.Convert;
...

// Konwertuj PDF na HTML za pomocą C#
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
    var options = new WebConvertOptions();
    converter.Convert("path/converted-pdf-to.html", options);
}

Konwertuj wybrane strony dokumentów PDF chronionych hasłem za pomocą języka C#

Możesz także konwertować chronione lub zablokowane dokumenty PDF. Poniższe kroki pokazują, jak przekonwertować wybrane strony zablokowanego dokumentu PDF na format HTML przy użyciu języka C#.

  • Przygotuj opcje ładowania za pomocą klasy PdfLoadOptions.
  • Teraz załaduj plik PDF za pomocą klasy Converter.
  • Przygotuj opcje konwersji dla formatu HTML za pomocą klasy WebConvertOptions.
  • Zdefiniuj listę stron kandydujących do konwersji, używając stron, numeru strony, liczby stron, powiększenia i innych właściwości.
  • Na koniec użyj metody Convert, aby przekształcić załadowany plik PDF do formatu HTML.

Poniższy kod C# konwertuje wybrane strony dokumentu PDF chronionego hasłem na format HTML.

// Konwertuj wybrane strony chronionego hasłem pliku PDF na HTML za pomocą C#

using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...

Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
    Password = "file-password_123"
};

using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
    // Przygotuj opcje konwersji
    WebConvertOptions options = new WebConvertOptions
    {
        PageNumber = 2,
        FixedLayout = true,
        PagesCount = 1,
        FixedLayoutShowBorders = false
    };
    converter.Convert("path/converted-adv-pdf-to-.html", options);
}
Wyjście PDF do HTML

Wniosek

Na zakończenie artykułu omówiliśmy konwersję plików PDF do HTML przy użyciu języka C#. Oddzielnie wdrożyliśmy dwie różne konwersje. Najpierw przekonwertowaliśmy cały dokument, korzystając z domyślnych opcji konwersji. Ponadto przekonwertowaliśmy wybrane strony dokumentu chronionego hasłem na format HTML przy użyciu tego samego interfejsu API platformy .NET.

Możesz dowiedzieć się więcej o interfejsie .NET Conversion Automation API, korzystając z dokumentacji, API Reference lub zapoznając się z przykładami GitHub. Możesz skontaktować się z nami w każdej sprawie za pośrednictwem forum.

Zobacz też