Для данных в табличной форме документов PDF и Word иногда необходимо преобразовать их в электронные таблицы Excel. Нам нужно автоматизировать это преобразование как можно большего количества документов в электронные таблицы или несколько книг. В этой статье мы обсудим, как программно преобразовать документы Word в Excel, а также как преобразовать PDF-файлы в электронные таблицы Excel на Java.
Здесь кратко обсуждаются следующие темы:
- Java API — преобразование документов в электронные таблицы
- Преобразовать PDF в электронную таблицу Excel
- Преобразовать таблицу Word в таблицу Excel
- Преобразование PDF или Word в электронную таблицу с дополнительными параметрами
Java API для преобразования в электронную таблицу
GroupDocs.Conversion for Java — это API, который позволяет преобразовывать документы PDF и Word в электронные таблицы в ваших приложениях Java. API позволяет преобразовывать документы и изображения во многие форматы файлов. Некоторые из поддерживаемых форматов документов включают текстовые документы, электронные таблицы, презентации, электронные книги, форматы AutoCAD, PDF, сообщения электронной почты, веб-страницы, изображения.
Загрузите и настройте
Вы можете получить библиотеку преобразования из раздела загрузок или добавить следующую конфигурацию pom.xml в свое приложение Java на основе Maven. После этого вы можете попробовать примеры из этой статьи, а также многие другие примеры, доступные на GitHub. Для получения подробной информации вы можете посетить Справочник по API.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-conversion</artifactId>
<version>21.4</version>
</dependency>
Преобразование PDF в Excel на Java
Чтобы преобразовать любой документ PDF в электронную таблицу Excel, можно выполнить следующие шаги.
- Загрузите файл PDF с помощью класса Converter.
- Подготовьте параметры преобразования, используя SpreadsheetConvertOptions.
- Вызвать метод convert с созданными опциями.
В следующем примере кода показано, как преобразовать файл PDF в электронную таблицу Excel XLSX на Java.
// Преобразование PDF-документа в электронную таблицу Excel в Java
Converter converter = new Converter("document.pdf");
SpreadsheetConvertOptions options = new SpreadsheetConvertOptions();
converter.convert("pdfToExcel.xlsx", options);
Преобразование Word в Excel на Java
Точно так же любой документ Word можно преобразовать в электронную таблицу Excel так же, как мы только что преобразовали документ PDF. Предоставьте правильный исходный файл и преобразуйте его в XLS или XLSX.
Ниже приведены шаги для преобразования любого файла DOC DOCX в электронную таблицу Excel.
- Загрузите файл DOC, DOCX с помощью класса Converter.
- Подготовьте параметры преобразования с помощью SpreadsheetConvertOptions.
- Вызвать метод convert класса Converter с параметрами.
В следующем исходном коде показано, как преобразовать файл DOC или DOCX в формат Excel XLSX на Java.
// Преобразование документа Word в электронную таблицу Excel на Java
Converter converter = new Converter("document.docx");
SpreadsheetConvertOptions options = new SpreadsheetConvertOptions();
converter.convert("wordToExcel.xlsx", options);
Преобразование PDF или Word в электронную таблицу с дополнительными параметрами с использованием Java
Вы не обязаны каждый раз конвертировать весь документ. Вы можете преобразовать только выбранные страницы вашего документа. API дает вам право конвертировать документ с различными параметрами, включая:
- Начиная с Номера страницы.
- Количество страниц.
- Определенные страницы для конверсии.
- Формат для преобразования.
- Пароль для защиты файла.
- Масштаб, чтобы увеличить или уменьшить его.
- Водяной знак на файле конвертера.
Ниже приведены шаги по преобразованию некоторых страниц файла PDF в формат XLSX с различным масштабированием в Java.
// Преобразование второй страницы файла PDF в Excel на Java с некоторыми параметрами
Converter converter = new Converter("document.pdf");
SpreadsheetConvertOptions options = new SpreadsheetConvertOptions();
options.setPageNumber(2);
options.setPagesCount(1);
options.setFormat(SpreadsheetFileType.Xlsx);
options.setZoom(120);
converter.convert("pdfToExcelAdv.xlsx", options);
Здесь показаны файл PDF и преобразованная электронная таблица в качестве вывода. Он преобразовал вторую страницу файла PDF в формат XLSX.
Получите бесплатную лицензию API
Вы можете получить бесплатную временную лицензию, чтобы использовать API без ограничений пробной версии.
Вывод
В этой статье мы обсудили преобразование документов PDF и Word в электронную таблицу Excel на Java. Кроме того, мы узнали, как преобразовать любую часть документа с такими параметрами, как водяной знак, масштабирование и защитить его паролем.
Дополнительные параметры и примеры см. в документации и в репозитории GitHub. По вопросам обращайтесь к нам через форум.