Yazmak herkes için basit bir görev değildir. Aynı kelimeleri ve cümleleri tekrar tekrar kullanmamanız tavsiye edilir. Günümüzün optimizasyon dünyasında, genellikle kelime ve ifadelerin tekrarını saymanız ve ardından sınırlamanız gerekir. Bu makalede, belgelerdeki sözcüklerin programlı olarak nasıl sayılacağı ve Java’da her bir sözcüğün geçtiği yer açıklanmaktadır.

Kelimeleri ve Oluşumları Saymak için Java API

GroupDocs.Parser, geliştiriciler için belge ayrıştırma çözümünü gösterir. Belgelerden metin çıkarmak ve oluşumları saymak için Java API’sini, yani GroupDocs.Parser for Java kullanacağım. API ayrıca kelime işlem belgeleri, sunumlar, elektronik tablolar, e-postalar, veritabanları, e-Kitaplar ve diğerleri gibi geniş bir desteklenen belge biçimleri listesi için resimlere ve meta veri ayıklamaya izin verir.

İndirin ve Yapılandırın

İndirilenler bölümünden kitaplığı edinin. Maven tabanlı Java uygulamanız için aşağıdaki pom.xml yapılandırmasını eklemeniz yeterlidir. Bundan sonra, bu makalenin örneklerini ve GitHub üzerinde bulunan daha birçok örneği çalıştırabilirsiniz. Ayrıntılar için API Referansı’nı ziyaret edebilirsiniz.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Java kullanarak Belgedeki Kelimeleri Say

İlk olarak, kelimeleri saymadan önce belgenin tüm içeriğini doğru bir şekilde ayrıştırmak ve çıkarmak önemlidir. Metnin çıkarılmasından sonra, içeriğini kolayca bir kelime ve kelime öbeği koleksiyonuna bölebiliriz. Aşağıdaki adımlar, Java kullanılarak belgedeki sözcüklerin nasıl sayılacağını gösterir.

  • Parser sınıfını kullanarak belgeyi yükleyin.
  • Yüklenen belgenin metnini TextReader kullanarak getirin.
  • Sınırlayıcıları kullanarak metni kelimelere ayırın.
  • Kelime sayımı gerçekleştirin.

Aşağıdaki Java kaynak kodu, bir belgedeki sözcük sayısını sayar.

// Java kullanarak PDF belgesindeki Kelimeleri Say
// Java kullanarak Benzersiz Sözcükleri ve bunların PDF belgesindeki oluşumlarını sayın
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

Java’da Kelime Oluşumlarını Say

Aynı şekilde, belgede belirli veya benzersiz bir kelimenin veya tümcenin kaç kez geçtiğini sayabiliriz. Bu özelliği kullanarak, makale içinde herhangi bir kelimenin tekrarını önleyebilirsiniz. Aşağıdaki adımlar, Java kullanılarak belgede geçen her bir sözcüğü sayar.

  • Parser sınıfını kullanarak belgeyi yükleyin.
  • TextReader kullanarak yüklenen belgenin metnini alın.
  • Tüm metni okuyun ve kelime koleksiyonuna bölün.
  • Her kelimenin görünümünü saymak için kelime koleksiyonunu gezin.

Aşağıdaki Java kod parçacığı, belgedeki her bir benzersiz kelimenin geçişini sayar.

// Java kullanarak Benzersiz Sözcükleri ve bunların PDF belgesindeki oluşumlarını sayın
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry ->{
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

Yukarıdaki kodun çıktısı aşağıdadır:

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

Ücretsiz API Lisansı Alın

API’yi değerlendirme sınırlamaları olmadan kullanmak için ücretsiz bir geçici lisans alabilirsiniz.

Çözüm

Sonuç olarak, Java kullanarak bir belgedeki kelimeleri saymayı öğrendiniz. Ek olarak, belgede kullanılan her bir kelime için kelime kullanım sayısını nasıl elde edebileceğimizi tartıştık. Çevrimiçi kelime sayacı Java uygulamanızı geliştirmeyi deneyin. Daha fazla ayrıntı ve API hakkında bilgi edinmek için belgeleri ziyaret edin. Sorularınız için forum aracılığıyla bize ulaşın.

Ayrıca bakınız