PDF es un formato de archivo que se utiliza para presentar documentos de manera independiente del software de la aplicación, el hardware y el sistema operativo utilizado para crearlos o verlos. Sin embargo, los archivos PDF no se pueden editar fácilmente y no son adecuados para páginas web. Convertir un PDF a HTML permite que los motores de búsqueda editen, busquen e indexen fácilmente el contenido del documento, y permite que el documento se vea más fácilmente en la web. En este artículo, aprenderemos cómo convertir documentos PDF a formato PDF usando C#.

Convierta PDF a HTML en CSharp.

.NET API para convertir archivos PDF a HTML

GroupDocs proporciona una solución de conversión de documentos para empoderar a los desarrolladores con la automatización. Ayuda a los programadores en la conversión de varios documentos y formatos de imagen con su API .NET eficiente y confiable. Hoy usaré su GroupDocs.Conversion for .NET API para convertir documentos PDF a formato HTML.

Puede descargar las DLL o el instalador MSI desde la sección de descargas o instalar la API en su aplicación .NET a través de NuGet.

PM> Install-Package GroupDocs.Conversion

Cómo convertir un PDF a HTML usando C#

Comencemos con la conversión básica de un archivo PDF a formato HTML usando C#. Los siguientes pasos transforman todas las páginas de un archivo PDF en HTML.

  • Cargue el archivo PDF usando la clase Converter.
  • Llame al método Convert para transformar el documento cargado en formato PDF.

El siguiente código C# convierte todo el documento PDF en HTML.

using GroupDocs.Conversion.Options.Convert;
...

// Convierte PDF a HTML usando C#
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
    var options = new WebConvertOptions();
    converter.Convert("path/converted-pdf-to.html", options);
}

Convierta páginas seleccionadas de documentos PDF protegidos con contraseña usando C#

También puede convertir documentos PDF protegidos o bloqueados. Los siguientes pasos muestran cómo convertir páginas seleccionadas de un documento PDF bloqueado a formato HTML usando C#.

  • Prepare las opciones de carga utilizando la clase PdfLoadOptions.
  • Ahora, cargue el archivo PDF usando la clase Converter.
  • Prepare las opciones de conversión para el formato HTML utilizando la clase WebConvertOptions.
  • Defina la lista de páginas candidatas a conversión usando Pages, PageNumber, PageCount, Zoom y otras propiedades.
  • Por último, utilice el método Convert para transformar el archivo PDF cargado en formato HTML.

El siguiente código C# convierte las páginas seleccionadas del documento PDF protegido con contraseña en HTML.

// Convierta páginas seleccionadas de PDF protegido con contraseña a HTML usando C#

using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...

Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
    Password = "file-password_123"
};

using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
    // Preparar opciones de conversión
    WebConvertOptions options = new WebConvertOptions
    {
        PageNumber = 2,
        FixedLayout = true,
        PagesCount = 1,
        FixedLayoutShowBorders = false
    };
    converter.Convert("path/converted-adv-pdf-to-.html", options);
}
Salida de PDF a HTML

Conclusión

Para concluir el artículo, discutimos la conversión de PDF a HTML usando C#. Implementamos por separado dos conversiones diferentes. Primero, convertimos todo el documento utilizando las opciones de conversión predeterminadas. Además, convertimos las páginas seleccionadas de un documento protegido por contraseña en HTML utilizando la misma API de .NET.

Puede obtener más información sobre la API de automatización de conversiones de .NET utilizando la documentación, Referencia de la API o experimentando los ejemplos de GitHub. Puede ponerse en contacto con nosotros para cualquier consulta a través del foro.

Ver también