CSharpでDOCXをHTMLに変換する

ドキュメントをHTML形式に変換してWebサイトのコンテンツを取得するか、ドキュメントをHTML形式で送信する必要があるオンラインドキュメント送信Webサイトに出くわしました。いずれの場合も、DOCからHTMLへのコンバーターが必要です。ただし、ドキュメントをプログラムでHTMLに変換する必要がある場合は、この記事はあなただけのものです。この記事では、C#でドキュメントをHTMLに変換する次の方法について説明します。

  • C#でのDOCXなどのドキュメントのHTMLへの最も簡単な変換。
  • カスタマイズされたオプションを使用してHTMLに変換します。
  • ページの境界線を表示または非表示にするオプションを使用して変換します。

C#ドキュメント変換ライブラリ

GroupDocs.Conversion for .NETは、サポートされているドキュメント形式の幅広いリストから任意のドキュメントをサポートされているターゲット形式に変換する機能を備えた、使いやすい強力なAPIです。 APIは、ダウンロードセクションからダウンロードするか、NuGetからインストールできます。

C#でDOCXをHTMLに変換する-シンプル

これは最も単純で非常に便利な変換です。どのドキュメントもHTML形式に変換できると言ったほうがいいでしょう。 サポートされているフォーマットのリストからフォーマットを確認し、先に進んで変換してください。

  • Converterクラスのインスタンスを作成して、ソースドキュメントから開始します。
  • MarkupConvertOptionsオブジェクトをインスタンス化します。
  • ConverterクラスのConvertメソッドを呼び出します。
  • それでおしまい。

ドキュメントはHTMLに変換され、結果のドキュメントはリポジトリに保存されます。次の小さなコードサンプルは、C#のConverterクラスを使用したDOCXファイルのHTMLへの変換を示しています。

// Converting DOCX to HTML in C#
using (Converter converter = new Converter("document.docx"))
{
    MarkupConvertOptions options = new MarkupConvertOptions();
    converter.Convert("converted.html", options);
}

カスタマイズされたオプションを使用してDOC/DOCXをHTMLに変換する

GroupDocs.Conversionには、目的の変換結果を取得するためのさまざまなオプションが用意されています。カスタマイズされたオプションは次のとおりです。

  • 固定レイアウト
  • 固定レイアウト-境界線を表示
  • フォーマット
  • ページ番号
  • ページ
  • ページ数
  • PDFを使用
  • 透かし
  • ズーム

ドキュメントまたはGitHubサンプルにアクセスして、各オプションの詳細を確認できます。以下のコードサンプルで、DOCXをHTML形式に変換しながら、いくつかのカスタマイズを示します。

// Converting DOCX to HTML in C# with advance options.
using (Converter converter = new Converter("document.docx"))
{
    MarkupConvertOptions options = new MarkupConvertOptions
    { // Setting customized options
        PageNumber = 2,
        PagesCount = 1,
        FixedLayout = true
    };
    converter.Convert("converted.html", options);
}

DOC/DOCXをHTMLに変換-ページの境界線を表示または非表示

最後になりましたが、C#でドキュメントをHTMLに変換するときに、ページの境界線の表示を制御できるようになりました。 GroupDocs.Conversion for .NETは、この制御をC#プログラマーに提供します。次の例は、MarkupConvertOptionsクラスのFixedLayoutShowBordersプロパティをtrueまたはfalseに設定することで、結果のHTMLドキュメントのページ境界を表示または非表示にできることを示しています。

// Converting DOCX to HTML in C# with show or hide borders control.
using (Converter converter = new Converter("document.docx"))
{
    MarkupConvertOptions options = new MarkupConvertOptions
    {
        PageNumber = 2,
        FixedLayout = true,
        PagesCount = 1,
        FixedLayoutShowBorders = false
    };
    converter.Convert("converted.html", options);
}

以下の画像は、元のDOCXドキュメントと、ページの境界線がある場合とない場合の変換されたHTMLを示しています。

HTMLに変換するDocxドキュメント

元のDOCXドキュメント

ページの境界線があり、境界線がないHTMLファイル。

上の図は、境界線を表示するオプションを使用してDOCXから変換されたHTMLファイルを示しています。

GroupDocs.Conversionの詳細

もっと話しましょう@無料サポートフォーラム