Menulis bukan hanya tugas sederhana untuk semua orang. Dianjurkan untuk tidak mengulangi kata dan frasa yang sama berulang kali. Dalam dunia pengoptimalan saat ini, Anda sering kali perlu menghitung lalu membatasi pengulangan kata dan frasa. Artikel ini membahas, cara menghitung kata dalam dokumen secara terprogram dan kemunculan setiap kata di Java.

Java API untuk Menghitung Kata & Kejadian

GroupDocs.Parser menampilkan solusi penguraian dokumen untuk developer. Saya akan menggunakan Java API-nya yaitu GroupDocs.Parser for Java untuk mengekstraksi teks dari dokumen, dan menghitung kejadian. API juga memungkinkan ekstraksi gambar dan metadata untuk daftar besar format dokumen yang didukung seperti dokumen pemrosesan kata, presentasi, spreadsheet, email, database, eBuku, dan banyak lainnya.

Unduh dan Konfigurasi

Dapatkan perpustakaan dari bagian unduhan. Untuk aplikasi Java berbasis Maven Anda, cukup tambahkan konfigurasi pom.xml berikut. Setelah itu, Anda dapat menjalankan contoh artikel ini, dan banyak contoh lainnya tersedia di GitHub. Untuk detailnya, Anda dapat mengunjungi Referensi API.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Hitung Kata dalam Dokumen menggunakan Java

Pertama, penting untuk mengurai dan mengekstrak seluruh konten dokumen secara akurat sebelum menghitung kata. Setelah mengekstraksi teks, kita dapat dengan mudah membagi isinya menjadi kumpulan kata dan frasa. Langkah-langkah berikut menunjukkan cara menghitung kata di dalam dokumen menggunakan Java.

  • Muat dokumen menggunakan kelas Parser.
  • Ambil teks dari dokumen yang dimuat menggunakan TextReader.
  • Pisahkan teks menjadi kata-kata menggunakan pembatas.
  • Lakukan hitungan kata.

Kode sumber Java berikut menghitung jumlah kata dalam dokumen.

// Hitung Kata dalam dokumen PDF menggunakan Java
// Hitung Kata Unik dan kemunculannya dalam dokumen PDF menggunakan Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

Menghitung Kemunculan Kata di Java

Demikian pula, kita dapat menghitung berapa kali kata atau frase tertentu atau unik muncul dalam dokumen. Dengan menggunakan fitur ini, Anda dapat menghindari pengulangan kata apa pun di dalam artikel. Langkah-langkah berikut menghitung kemunculan setiap kata dalam dokumen menggunakan Java.

  • Muat dokumen menggunakan kelas Parser.
  • Ambil teks dari dokumen yang dimuat menggunakan TextReader.
  • Baca dan pisahkan seluruh teks menjadi kumpulan kata.
  • Telusuri kumpulan kata untuk menghitung kemunculan setiap kata.

Cuplikan kode Java berikut menghitung kemunculan setiap kata unik di dalam dokumen.

// Hitung Kata Unik dan kemunculannya dalam dokumen PDF menggunakan Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry ->{
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

Berikut adalah output dari kode di atas:

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

Dapatkan Lisensi API Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk menggunakan API tanpa batasan evaluasi.

Kesimpulan

Sebagai penutup, Anda telah mempelajari cara menghitung kata dalam dokumen menggunakan Java. Selain itu, kami membahas cara mendapatkan jumlah kemunculan kata untuk setiap kata yang digunakan dalam dokumen. Coba kembangkan aplikasi Java penghitung kata online Anda. Untuk detail lebih lanjut dan mempelajari tentang API, kunjungi dokumentasi. Untuk pertanyaan, hubungi kami melalui forum.

Lihat juga