Il PDF è un formato di file utilizzato per presentare i documenti in modo indipendente dal software applicativo, dall’hardware e dal sistema operativo utilizzato per crearli o visualizzarli. Tuttavia, i PDF non sono facilmente modificabili e non sono adatti per le pagine web. La conversione di un PDF in HTML consente al contenuto del documento di essere facilmente modificato, ricercato e indicizzato dai motori di ricerca e consente di visualizzare più facilmente il documento sul Web. In questo articolo impareremo come convertire i documenti PDF in formato PDF usando C#.
API .NET per convertire file PDF in HTML
GroupDocs fornisce una soluzione di conversione dei documenti per potenziare gli sviluppatori con l’automazione. Aiuta i programmatori nella conversione di vari documenti e formati di immagine con la sua API .NET efficiente e affidabile. Oggi userò la sua API GroupDocs.Conversion for .NET per convertire i documenti PDF in formato HTML.
Puoi scaricare le DLL o il programma di installazione MSI dalla sezione download o installare l’API nella tua applicazione .NET tramite NuGet.
PM> Install-Package GroupDocs.Conversion
Come convertire un PDF in HTML usando C#
Iniziamo con la conversione di base di un file PDF in formato HTML utilizzando C#. I seguenti passaggi trasformano tutte le pagine di un file PDF in HTML.
- Carica il file PDF utilizzando la classe Converter.
- Chiama il metodo Convert per trasformare il documento caricato in formato PDF.
Il seguente codice C# converte l’intero documento PDF in HTML.
using GroupDocs.Conversion.Options.Convert;
...
// Converti PDF in HTML usando C#
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
var options = new WebConvertOptions();
converter.Convert("path/converted-pdf-to.html", options);
}
Converti pagine selezionate di documenti PDF protetti da password utilizzando C#
Puoi anche convertire documenti PDF protetti o bloccati. I seguenti passaggi mostrano come convertire pagine selettive di un documento PDF bloccato in formato HTML utilizzando C#.
- Preparare le opzioni di caricamento utilizzando la classe PdfLoadOptions.
- Ora carica il file PDF utilizzando la classe Converter.
- Preparare le opzioni di conversione per il formato HTML utilizzando la classe WebConvertOptions.
- Definisci l’elenco delle pagine candidate alla conversione utilizzando Pages, PageNumber, PageCount, Zoom e altre proprietà.
- Infine, utilizza il metodo Convert per trasformare il file PDF caricato in formato HTML.
Il seguente codice C# converte le pagine selezionate del documento PDF protetto da password in HTML.
// Converti pagine selezionate di PDF protetto da password in HTML utilizzando C#
using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...
Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
Password = "file-password_123"
};
using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
// Preparare le opzioni di conversione
WebConvertOptions options = new WebConvertOptions
{
PageNumber = 2,
FixedLayout = true,
PagesCount = 1,
FixedLayoutShowBorders = false
};
converter.Convert("path/converted-adv-pdf-to-.html", options);
}
Conclusione
Per concludere l’articolo, abbiamo discusso la conversione da PDF a HTML utilizzando C#. Abbiamo implementato separatamente due diverse conversioni. Innanzitutto, abbiamo convertito l’intero documento utilizzando le opzioni di conversione predefinite. Inoltre, abbiamo convertito le pagine selezionate di un documento protetto da password in HTML utilizzando la stessa API .NET.
Puoi saperne di più sull’API .NET Conversion Automation utilizzando la documentazione, riferimento API o sperimentando gli esempi GitHub. Puoi contattarci per qualsiasi domanda tramite il forum.