PDF は、ドキュメントの作成または表示に使用されるアプリケーション ソフトウェア、ハードウェア、およびオペレーティング システムに依存しない方法でドキュメントを表示するために使用されるファイル形式です。ただし、PDF は簡単に編集できず、Web ページには適していません。 PDF を HTML に変換すると、ドキュメントのコンテンツを簡単に編集、検索、および検索エンジンで索引付けできるようになり、ドキュメントを Web 上でより簡単に表示できるようになります。この記事では、C# を使用して PDF ドキュメントを PDF 形式に変換する方法を学習します。

CSharp で PDF を HTML に変換します。

PDF ファイルを HTML に変換する .NET API

GroupDocs は、自動化によって開発者を強化するドキュメント変換ソリューションを提供します。効率的で信頼性の高い .NET API を使用して、プログラマーがさまざまなドキュメントや画像形式を変換するのに役立ちます。今日は、GroupDocs.Conversion for .NET API を使用して、PDF ドキュメントを HTML 形式に変換します。

ダウンロード セクション から DLL または MSI インストーラーをダウンロードするか、NuGet 経由で .NET アプリケーションに API をインストールできます。

PM> Install-Package GroupDocs.Conversion

C# を使用して PDF を HTML に変換する方法

C# を使用して、PDF ファイルを HTML 形式に変換する基本的な手順から始めましょう。次の手順では、PDF ファイルのすべてのページを HTML に変換します。

  • Converter クラスを使用して PDF ファイルを読み込みます。
  • Convert メソッドを呼び出して、読み込まれたドキュメントを PDF 形式に変換します。

次の C# コードは、PDF ドキュメント全体を HTML に変換します。

using GroupDocs.Conversion.Options.Convert;
...

// C# を使用して PDF を HTML に変換する
using (var converter = new GroupDocs.Conversion.Converter("path/document.pdf"))
{
    var options = new WebConvertOptions();
    converter.Convert("path/converted-pdf-to.html", options);
}

C# を使用して、パスワードで保護された PDF ドキュメントの選択したページを変換する

保護またはロックされた PDF ドキュメントを変換することもできます。次の手順は、C# を使用して、ロックされた PDF ドキュメントの選択的なページを HTML 形式に変換する方法を示しています。

  • PdfLoadOptions クラスを使用して読み込みオプションを準備します。
  • 次に、Converter クラスを使用して PDF ファイルを読み込みます。
  • WebConvertOptions クラスを使用して、HTML 形式の変換オプションを準備します。
  • Pages、PageNumber、PageCount、Zoom などのプロパティを使用して、変換候補ページのリストを定義します。
  • 最後に、Convert メソッドを使用して、読み込んだ PDF ファイルを HTML 形式に変換します。

次の C# コードは、パスワードで保護された PDF ドキュメントの選択されたページを HTML に変換します。

// C# を使用して、パスワードで保護された PDF の選択したページを HTML に変換します

using GroupDocs.Conversion.Options.Convert;
using GroupDocs.Conversion.Options.Load;
...

Func<LoadOptions> getLoadOptions =() => new PdfLoadOptions
{
    Password = "file-password_123"
};

using (Converter converter = new Converter("path/protected-document.pdf", getLoadOptions))
{
    // 変換オプションを準備する
    WebConvertOptions options = new WebConvertOptions
    {
        PageNumber = 2,
        FixedLayout = true,
        PagesCount = 1,
        FixedLayoutShowBorders = false
    };
    converter.Convert("path/converted-adv-pdf-to-.html", options);
}
PDF から HTML への出力

結論

この記事の締めくくりとして、C# を使用した PDF から HTML への変換について説明しました。 2 つの異なる変換を別々に実装しました。まず、デフォルトの変換オプションを使用してドキュメント全体を変換しました。さらに、同じ .NET API を使用して、パスワードで保護されたドキュメントの選択したページを HTML に変換しました。

ドキュメントAPI リファレンス を使用するか、GitHub の例 を体験することで、.NET Conversion Automation API の詳細を学ぶことができます。 フォーラム からお問い合わせいただけます。

関連項目