Na era digital de hoje, a capacidade de converter documentos PDF para o formato HTML está se tornando cada vez mais importante. Seja você um desenvolvedor trabalhando em um projeto que requer essa funcionalidade ou um usuário que deseja tornar um documento PDF mais acessível, entender como converter PDF para HTML em Java é essencial. Nesta postagem do blog, orientaremos você no processo de conversão de documentos PDF em HTML usando Java.
Desenvolvedores Java: API de conversão de PDF para HTML
GroupDocs apresenta a API de conversão de documentos e imagens para desenvolvedores Java. Ele suporta uma grande lista de formatos de documentos e imagens para conversão de um formato para outro. Além disso, os resultados da conversão também podem ser personalizados usando as opções avançadas disponíveis. Usarei sua API GroupDocs.Conversion for Java para converter um documento PDF para o formato HTML.
Baixar ou Configurar
Você pode baixar o arquivo JAR na seção de downloads ou apenas obter as configurações de repositório e dependência para o pom.xml de seus aplicativos Java baseados em maven.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-conversion</artifactId>
<version>22.12.1</version>
</dependency>
Como converter PDF para HTML usando Java
Converter um PDF para HTML usando Java é um processo simples. As etapas a seguir o guiarão pelo processo de conversão de todas as páginas de um arquivo PDF em formato HTML.
- Use a classe Converter para carregar o arquivo PDF.
- Utilize o método Convert para transformar o documento carregado em formato HTML.
O código a seguir demonstra como converter um documento PDF inteiro em HTML usando Java.
import com.groupdocs.conversion.Converter;
import com.groupdocs.conversion.options.convert.MarkupConvertOptions;
...
// Converter PDF para HTML em Java
Converter converter = new Converter("path/document.pdf");
converter.convert("path/converted-pdf-to.html", new MarkupConvertOptions());
Convertendo páginas específicas de um PDF protegido em Java
Também é possível converter documentos PDF protegidos ou bloqueados. As etapas a seguir o guiarão pelo processo de conversão de páginas específicas de um documento PDF bloqueado em formato HTML usando Java.
- Use a classe PdfLoadOptions para preparar as opções de carregamento.
- Carregue o arquivo PDF usando a classe Converter.
- Utilize a classe WebConvertOptions para preparar as opções de conversão para o formato HTML.
- Defina as páginas específicas a serem convertidas definindo propriedades como Pages, PageNumber, PageCount, Zoom, etc.
- Por fim, use o método Convert para transformar o arquivo PDF carregado em formato HTML.
O código Java a seguir demonstra como converter páginas selecionadas de um documento PDF protegido por senha em HTML.
// Converta páginas selecionadas de PDF protegido por senha para HTML em Java
import com.groupdocs.conversion.Converter;
import com.groupdocs.conversion.options.convert.MarkupConvertOptions;
import com.groupdocs.conversion.options.load.PdfLoadOptions;
...
PdfLoadOptions loadOptions = new PdfLoadOptions();
loadOptions.setPassword("pdf-password-12345");
Converter converter = new Converter("path/protected-document.pdf", loadOptions);
MarkupConvertOptions options = new MarkupConvertOptions();
options.setPageNumber(2);
options.setFixedLayout(true);
options.setPagesCount(1);
converter.convert("path/converted-adv-pdf-to-.html", options);
Conclusão
Em resumo, este artigo abordou o tópico de conversão de documentos PDF em HTML em Java. Passamos por duas abordagens diferentes, incluindo a conversão de todo o documento com opções padrão e a conversão de páginas específicas de um documento protegido por senha.
Para saber mais sobre a API Java Conversion Automation, consulte a documentação, Referência da API ou confira os Exemplos do GitHub. Se você tiver mais alguma dúvida, sinta-se à vontade para entrar em contato conosco através do fórum.