PDF est un format de fichier utilisé pour présenter des documents d’une manière indépendante du logiciel d’application, du matériel et du système d’exploitation utilisés pour les créer ou les afficher. Cependant, les PDF ne sont pas facilement modifiables et ne sont pas bien adaptés aux pages Web. La conversion d’un PDF en HTML permet au contenu du document d’être facilement modifié, recherché et indexé par les moteurs de recherche, et permet au document d’être plus facilement visualisé sur le Web. Dans cet article, nous allons apprendre à convertir des documents PDF au format PDF à l’aide de C#.
API .NET pour convertir des fichiers PDF en HTML
GroupDocs fournit une solution de conversion de documents pour permettre aux développeurs d’automatiser. Il aide les programmeurs dans la conversion de divers documents et formats d’image grâce à son API .NET efficace et fiable. Aujourd’hui, je vais utiliser son API GroupDocs.Conversion for .NET pour convertir des documents PDF au format HTML.
Vous pouvez télécharger les DLL ou le programme d’installation MSI à partir de la section des téléchargements ou installer l’API dans votre application .NET via NuGet.
PM> Install-Package GroupDocs.Conversion
Comment convertir un PDF en HTML avec C#
Commençons par la conversion de base d’un fichier PDF au format HTML à l’aide de C#. Les étapes suivantes transforment toutes les pages d’un fichier PDF en HTML.
- Chargez le fichier PDF à l’aide de la classe Converter.
- Appelez la méthode Convert pour transformer le document chargé au format PDF.
Le code C# suivant convertit l’intégralité du document PDF en HTML.
using GroupDocs.Conversion.Options.Convert;
...
// Convertir PDF en HTML en utilisant C#
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
var options = new WebConvertOptions();
converter.Convert("path/converted-pdf-to.html", options);
}
Convertir des pages sélectionnées de documents PDF protégés par mot de passe à l’aide de C#
Vous pouvez également convertir des documents PDF protégés ou verrouillés. Les étapes suivantes montrent comment convertir des pages sélectives d’un document PDF verrouillé au format HTML à l’aide de C#.
- Préparez les options de chargement à l’aide de la classe PdfLoadOptions.
- Maintenant, chargez le fichier PDF en utilisant la classe Converter.
- Préparez les options de conversion pour le format HTML à l’aide de la classe WebConvertOptions.
- Définissez la liste des pages candidates à la conversion à l’aide de Pages, PageNumber, PageCount, Zoom et d’autres propriétés.
- Enfin, utilisez la méthode Convert pour transformer le fichier PDF chargé au format HTML.
Le code C# suivant convertit les pages sélectionnées du document PDF protégé par mot de passe en HTML.
// Convertir des pages sélectionnées de PDF protégé par mot de passe en HTML à l'aide de C#
using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...
Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
Password = "file-password_123"
};
using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
// Préparer les options de conversion
WebConvertOptions options = new WebConvertOptions
{
PageNumber = 2,
FixedLayout = true,
PagesCount = 1,
FixedLayoutShowBorders = false
};
converter.Convert("path/converted-adv-pdf-to-.html", options);
}
Conclusion
Pour conclure l’article, nous avons discuté de la conversion PDF en HTML à l’aide de C#. Nous avons implémenté séparément deux conversions différentes. Tout d’abord, nous avons converti l’intégralité du document en utilisant les options de conversion par défaut. De plus, nous avons converti les pages sélectionnées d’un document protégé par mot de passe en HTML en utilisant la même API .NET.
Vous pouvez en savoir plus sur l’API .NET Conversion Automation à l’aide de la documentation, API Reference, ou en découvrant les exemples GitHub. Vous pouvez nous joindre pour toute question via le forum.