PDFおよびWord文書の表形式のデータの場合、Excelスプレッドシートに変換する必要がある場合があります。この数のドキュメントからスプレッドシートまたは複数のワークブックへの変換を自動化する必要があります。この記事では、Word文書をプログラムでExcelに変換する方法と、JavaでPDFファイルをExcelスプレッドシートに変換する方法について説明します。

JavaでWordとPDFをExcelに変換する

ここでは、次のトピックについて簡単に説明します。

スプレッドシートに変換するためのJavaAPI

GroupDocs.Conversion for Javaは、Javaアプリケーション内でPDFおよびWordドキュメントをスプレッドシートに変換できるようにするAPIです。 APIを使用すると、多くのファイル形式でドキュメントと画像を変換できます。サポートされているドキュメント形式には、ワードプロセッシングドキュメント、スプレッドシート、プレゼンテーション、電子書籍、AutoCAD形式、PDF、電子メールメッセージ、Webページ、画像などがあります。

ダウンロードして構成する

ダウンロードセクションから変換ライブラリを取得するか、MavenベースのJavaアプリケーションに次のpom.xml構成を追加できます。その後、この記事の例だけでなく、GitHubで利用可能な他の多くの例を試すことができます。詳細については、APIリファレンスをご覧ください。

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-conversion</artifactId>
        <version>21.4</version> 
</dependency>

JavaでPDFをExcelに変換する

次の手順に従って、PDFドキュメントをExcelスプレッドシートに変換できます。

  • Converterクラスを使用してPDFファイルをロードします。
  • SpreadsheetConvertOptionsを使用して変換オプションを準備します。
  • 作成したオプションを使用してconvertメソッドを呼び出します。

次のコードサンプルは、PDFファイルをJavaでExcelXLSXスプレッドシートに変換する方法を示しています。

// PDFドキュメントをJavaでExcelスプレッドシートに変換する
Converter converter = new Converter("document.pdf");
SpreadsheetConvertOptions options = new SpreadsheetConvertOptions();
converter.convert("pdfToExcel.xlsx", options);

JavaでWordをExcelに変換する

同様に、PDFドキュメントを変換したのと同じ方法で、WordドキュメントをExcelスプレッドシートに変換できます。適切なソースファイルを提供し、それをXLSまたはXLSXに変換します。

以下は、DOCDOCXファイルをExcelスプレッドシートに変換する手順です。

  • Converterクラスを使用してDOC、DOCXファイルをロードします。
  • SpreadsheetConvertOptionsを使用して変換オプションを準備します。
  • オプションを指定してConverterクラスのconvertメソッドを呼び出します。

次のソースコードは、DOCまたはDOCXファイルをJavaでExcelXLSX形式に変換する方法を示しています。

// Word文書をJavaでExcelスプレッドシートに変換する
Converter converter = new Converter("document.docx");
SpreadsheetConvertOptions options = new SpreadsheetConvertOptions();
converter.convert("wordToExcel.xlsx", options);

Javaを使用したより多くのオプションを備えたPDFまたはWordからスプレッドシートへの変換

ドキュメント全体を毎回変換する必要はありません。ドキュメントの選択したページだけを変換できます。 APIには、次のようなさまざまなオプションを使用してドキュメントを変換する権限があります。

  • 開始ページ番号
  • ページ数
  • 変換用の特定のページ
  • 変換するフォーマット
  • ファイルを保護するためのパスワード
  • ズームして大きくしたり小さくしたりします。
  • コンバータファイルの透かし

以下は、PDFファイルの一部のページをJavaで異なるズームを使用してXLSX形式に変換する方法の手順です。

// いくつかのオプションを使用して、PDFファイルの2ページ目をJavaでExcelに変換します
Converter converter = new Converter("document.pdf");
SpreadsheetConvertOptions options = new SpreadsheetConvertOptions();
options.setPageNumber(2);
options.setPagesCount(1);
options.setFormat(SpreadsheetFileType.Xlsx);
options.setZoom(120);

converter.convert("pdfToExcelAdv.xlsx", options);

PDFファイルと変換されたスプレッドシートを出力としてここに示します。 PDFファイルの2ページ目をXLSX形式に変換しました。

プログラムでPDFをExcelXLSXLSXに変換する

無料のAPIライセンスを取得する

評価の制限なしにAPIを使用するために、無料の一時ライセンスを取得できます。

結論

この記事では、JavaでのPDFおよびWord文書のExcelスプレッドシートへの変換について説明しました。さらに、透かし、ズームなどのオプションを使用してドキュメントの任意の部分を変換し、パスワード保護を使用してドキュメントを保護する方法を学びました。

その他のオプションと例については、ドキュメントGitHubリポジトリにアクセスしてください。質問がある場合は、フォーラムからご連絡ください。

関連項目