PDF é um formato de arquivo usado para apresentar documentos de maneira independente do software aplicativo, hardware e sistema operacional usado para criá-los ou visualizá-los. No entanto, os PDFs não são facilmente editáveis e não são adequados para páginas da web. A conversão de um PDF para HTML permite que o conteúdo do documento seja facilmente editado, pesquisado e indexado pelos mecanismos de pesquisa e permite que o documento seja visualizado com mais facilidade na web. Neste artigo, aprenderemos como converter documentos PDF em formato PDF usando C#.
API .NET para converter arquivos PDF em HTML
O GroupDocs fornece uma solução de conversão de documentos para capacitar os desenvolvedores com automação. Ele ajuda os programadores na conversão de vários documentos e formatos de imagem com sua API .NET eficiente e confiável. Hoje, usarei sua API GroupDocs.Conversion for .NET para converter documentos PDF em formato HTML.
Você pode baixar as DLLs ou o instalador MSI na seção de downloads ou instalar a API em seu aplicativo .NET via NuGet.
PM> Install-Package GroupDocs.Conversion
Como converter um PDF para HTML usando C#
Vamos começar com a conversão básica de um arquivo PDF em formato HTML usando C#. As etapas a seguir transformam todas as páginas de um arquivo PDF em HTML.
- Carregue o arquivo PDF usando a classe Converter.
- Chame o método Convert para transformar o documento carregado em formato PDF.
O código C# a seguir converte todo o documento PDF em HTML.
using GroupDocs.Conversion.Options.Convert;
...
// Converta PDF para HTML usando C#
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
var options = new WebConvertOptions();
converter.Convert("path/converted-pdf-to.html", options);
}
Converter páginas selecionadas de documentos PDF protegidos por senha usando C#
Você também pode converter documentos PDF protegidos ou bloqueados. As etapas a seguir mostram como converter páginas seletivas de um documento PDF bloqueado em formato HTML usando C#.
- Prepare as opções de carregamento usando a classe PdfLoadOptions.
- Agora, carregue o arquivo PDF usando a classe Converter.
- Prepare as opções de conversão para o formato HTML usando a classe WebConvertOptions.
- Defina a lista de páginas candidatas à conversão usando Pages, PageNumber, PageCount, Zoom e outras propriedades.
- Por fim, use o método Convert para transformar o arquivo PDF carregado em formato HTML.
O código C# a seguir converte as páginas selecionadas do documento PDF protegido por senha em HTML.
// Converta páginas selecionadas de PDF protegido por senha para HTML usando C#
using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...
Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
Password = "file-password_123"
};
using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
// Preparar opções de conversão
WebConvertOptions options = new WebConvertOptions
{
PageNumber = 2,
FixedLayout = true,
PagesCount = 1,
FixedLayoutShowBorders = false
};
converter.Convert("path/converted-adv-pdf-to-.html", options);
}
Conclusão
Para concluir o artigo, discutimos a conversão de PDF para HTML usando C#. Implementamos separadamente duas conversões diferentes. Primeiro, convertemos todo o documento usando as opções de conversão padrão. Além disso, convertemos as páginas selecionadas de um documento protegido por senha em HTML usando a mesma API .NET.
Você pode aprender mais sobre a API de automação de conversão .NET usando a documentação, Referência da API ou experimentando os exemplos do GitHub. Você pode entrar em contato conosco para qualquer consulta através do fórum.