Bu yazıda, Java’da PDF belgesini nasıl ayrıştıracağımızı ve PDF formlarından değerleri programlı olarak nasıl çıkaracağımızı tartışacağız. Geniş bir izleyici kitlesinden birkaç doldurulmuş anket formunun veya PDF formatında geri bildirimin olduğu birçok durum vardır. Doldurulan veri değerlerini kolayca çıkarabilir ve analiz için kullanabiliriz. Şimdi doğrudan bu PDF formlarını okumaya devam edelim ve Java uygulamalarında doldurulmuş veri alanı değerlerini çıkaralım.

Java'daki değerleri Çıkarmak için PDF Formunu Ayrıştırın

PDF Formlarından Değerleri Ayrıştırmak ve Çıkarmak için Java API

GroupDocs, kelime işleme, sunumlar, elektronik tablolar, e-postalar, PDF, biçimlendirme, e-kitaplar ve arşiv biçimlerinden çok daha fazlasını destekleyen bir belge ayrıştırma ve veri çıkarma Java API sunar. API, metin ve görüntülerin çıkarılmasının yanı sıra desteklenen belge biçimlerinden meta verilerin çıkarılmasını da destekler. API’nin göze çarpan özelliklerinden biri, doldurulabilir PDF belgelerini ayrıştırmak ve kolay Java koduyla form alanlarından değerler çıkarmaktır.

Önümüzdeki örneklerde, bahsedilen API’yi yani GroupDocs.Parser for Java kullanacağım, bu nedenle ortamınızı özelliği uygulamak için hazırlamanızı tavsiye ederim. İndirilenler bölümünden en son JAR dosyasını indirebilir veya Maven tabanlı Java uygulamalarınıza aşağıdaki yapılandırmaları ekleyebilirsiniz. API hakkında ayrıntılar için API Referansı’nı ziyaret edin.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>http://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>20.8</version> 
</dependency>

Java’daki PDF Form Alanından Veri Çıkarma

Alan değerlerinin PDF formundan nasıl çıkarılacağına ilişkin aşağıdaki basit adımlar.

  • Ayrıştırıcı nesnesini hedef PDF formuyla başlatın.
  • PDF formundaki tüm verileri almak için parseForm yöntemini çağırın.
  • İstenen alan değerlerini elde etmek için toplanan verileri çaprazlayın.

Aşağıdaki kod, Java’da PDF belgesinin nasıl ayrıştırılacağını ve doldurulmuş PDF form alanlarından değerlerin nasıl alınacağını gösterir.

// GroupDocs.Parser'ın Java API'sini kullanarak alan değerlerini ayıklamak için doldurulmuş PDF Formunu ayrıştırın
Parser parser = new Parser("filePath/PDFForm.pdf"); 
// PDF Formundan veri ayıklayın
DocumentData data = parser.parseForm();
// Ayıklanan PDF form verilerini yineleyin
for (int i = 0; i < data.getCount(); i++) {
    System.out.print(data.get(i).getName() + ": ");
    PageTextArea area = (data.get(i).getPageArea() instanceof PageTextArea)
            ? (PageTextArea) data.get(i).getPageArea()
            : null;
    System.out.println(area == null ? "Not a template field" : area.getText());
}
COMPANY: GroupDocs
EMAIL: everything@groupdocs.com
COUNTRY: Australia

Çözüm

Umarım, Java geliştiricileri artık PDF form alanlarından metin değerleri çıkarmak için PDF belgelerini ayrıştırmanın kolay, kesin ve etkili yolunu biliyorlardır. API’nin temel ve gelişmiş özellikleri hakkında daha fazla bilgi edinmek istiyorsanız belgeleri inceleyebilirsiniz.

Herhangi bir sorunuz olması durumunda, desteğe @ forum ulaşın.

Ayrıca bakınız