PDF é um formato de arquivo usado para apresentar documentos de maneira independente do software aplicativo, hardware e sistema operacional usado para criá-los ou visualizá-los. No entanto, os PDFs não são facilmente editáveis e não são adequados para páginas da web. A conversão de um PDF para HTML permite que o conteúdo do documento seja facilmente editado, pesquisado e indexado pelos mecanismos de pesquisa e permite que o documento seja visualizado com mais facilidade na web. Neste artigo, aprenderemos como converter documentos PDF em formato PDF usando C#.

Converta PDF para HTML no CSharp.

API .NET para converter arquivos PDF em HTML

O GroupDocs fornece uma solução de conversão de documentos para capacitar os desenvolvedores com automação. Ele ajuda os programadores na conversão de vários documentos e formatos de imagem com sua API .NET eficiente e confiável. Hoje, usarei sua API GroupDocs.Conversion for .NET para converter documentos PDF em formato HTML.

Você pode baixar as DLLs ou o instalador MSI na seção de downloads ou instalar a API em seu aplicativo .NET via NuGet.

PM> Install-Package GroupDocs.Conversion

Como converter um PDF para HTML usando C#

Vamos começar com a conversão básica de um arquivo PDF em formato HTML usando C#. As etapas a seguir transformam todas as páginas de um arquivo PDF em HTML.

  • Carregue o arquivo PDF usando a classe Converter.
  • Chame o método Convert para transformar o documento carregado em formato PDF.

O código C# a seguir converte todo o documento PDF em HTML.

using GroupDocs.Conversion.Options.Convert;
...

// Converta PDF para HTML usando C#
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
    var options = new WebConvertOptions();
    converter.Convert("path/converted-pdf-to.html", options);
}

Converter páginas selecionadas de documentos PDF protegidos por senha usando C#

Você também pode converter documentos PDF protegidos ou bloqueados. As etapas a seguir mostram como converter páginas seletivas de um documento PDF bloqueado em formato HTML usando C#.

  • Prepare as opções de carregamento usando a classe PdfLoadOptions.
  • Agora, carregue o arquivo PDF usando a classe Converter.
  • Prepare as opções de conversão para o formato HTML usando a classe WebConvertOptions.
  • Defina a lista de páginas candidatas à conversão usando Pages, PageNumber, PageCount, Zoom e outras propriedades.
  • Por fim, use o método Convert para transformar o arquivo PDF carregado em formato HTML.

O código C# a seguir converte as páginas selecionadas do documento PDF protegido por senha em HTML.

// Converta páginas selecionadas de PDF protegido por senha para HTML usando C#

using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...

Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
    Password = "file-password_123"
};

using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
    // Preparar opções de conversão
    WebConvertOptions options = new WebConvertOptions
    {
        PageNumber = 2,
        FixedLayout = true,
        PagesCount = 1,
        FixedLayoutShowBorders = false
    };
    converter.Convert("path/converted-adv-pdf-to-.html", options);
}
Saída de PDF para HTML

Conclusão

Para concluir o artigo, discutimos a conversão de PDF para HTML usando C#. Implementamos separadamente duas conversões diferentes. Primeiro, convertemos todo o documento usando as opções de conversão padrão. Além disso, convertemos as páginas selecionadas de um documento protegido por senha em HTML usando a mesma API .NET.

Você pode aprender mais sobre a API de automação de conversão .NET usando a documentação, Referência da API ou experimentando os exemplos do GitHub. Você pode entrar em contato conosco para qualquer consulta através do fórum.

Veja também