Pengulangan data dapat mengurangi nilai konten. Bekerja sebagai penulis, Anda harus mengikuti prinsip KERING(jangan ulangi sendiri). Statistik seperti jumlah kata atau jumlah kemunculan setiap kata memungkinkan Anda menganalisis konten, tetapi sulit melakukannya secara manual untuk beberapa dokumen. Jadi artikel ini menunjukkan cara menghitung kata secara terprogram dan jumlah kemunculan kata dari setiap kata dalam format dokumen PDF, Word, Excel, PowerPoint, eBook, Markup, dan Email menggunakan C#.

.NET API untuk Menghitung Kata & Kejadian

GroupDocs.Parser menyediakan solusi penguraian dokumen untuk pengembang. Untuk ekstraksi teks dari dokumen, dan menghitung kejadian, kita akan menggunakan GroupDocs.Parser for .NET. API selanjutnya memungkinkan ekstraksi gambar, dan metadata dari daftar panjang dokumen yang didukung format seperti dokumen pengolah kata, presentasi, spreadsheet, email, database, eBuku, dan banyak lainnya.

Anda dapat mengunduh penginstal DLL atau MSI dari bagian unduhan atau menginstal API dengan menambahkan paketnya ke aplikasi .NET Anda melalui NuGet.

PM> Install-Package GroupDocs.Parser

Hitung Kata menggunakan C#

Untuk penghitungan kata, yang utama adalah mengurai dan mengekstrak seluruh isi dokumen. Setelah ekstraksi teks, kita dapat membagi isinya menjadi kumpulan kalimat dan kata. Langkah berikut memungkinkan menghitung kata-kata dalam dokumen menggunakan C#.

  • Muat dokumen menggunakan kelas Parser.
  • Ambil teks dari dokumen yang dimuat ke TextReader.
  • Mendapatkan the text of the document from the TextReader as a string.
  • Pisahkan teks menjadi kata-kata dan simpan ke dalam array string.
  • Lakukan hitungan kata.

Kode sumber C# berikut menghitung jumlah kata dalam dokumen.

// Hitung Kata dalam dokumen PDF menggunakan C#
using (Parser parser = new Parser("path/document.pdf"))
{                
	// Ekstrak teks ke pembaca
	using (TextReader reader = parser.GetText())
	{
		string text = reader.ReadToEnd();
		char[] chars = { ' ', '.', ',', ';', ':', '?', '\n', '\r' };
		// membagi kata
		string[] words = text.Split(chars);
		// mencetak jumlah kata total
		Console.WriteLine("Total word count: {0}", stats.Count);
	}
}

Hitung Kemunculan Kata dalam C#

Demikian pula, kita dapat menghitung berapa kali kata atau frase tertentu telah digunakan dalam dokumen. Dengan menggunakan fitur ini, Anda dapat menghindari pengulangan kata yang berlebihan dalam sebuah artikel. Langkah-langkah berikut menghitung kemunculan setiap kata yang digunakan dalam dokumen.

  • Muat dokumen menggunakan kelas Parser.
  • Ambil teks dokumen yang dimuat ke TextReader.
  • Baca dan bagi seluruh teks menjadi kumpulan kata.
  • Lintasi kumpulan kata untuk menghitung kata.

Cuplikan kode C# berikut menghitung kemunculan setiap kata unik di dalam dokumen.

// Hitung Kata Unik dan kemunculannya dalam dokumen PDF menggunakan C#
using (Parser parser = new Parser("path/document.pdf"))
{                
	// Ekstrak teks ke dalam TextReader
	using (TextReader reader = parser.GetText())
	{
		Dictionary<string, int> stats = new Dictionary<string, int>();
		string text = reader.ReadToEnd();
		char[] chars = { ' ', '.', ',', ';', ':', '?', '\n', '\r' };
		// membagi kata
		string[] words = text.Split(chars);
		int minWordLength = 2; // Consider a word having more than 2 characters

		// ulangi kumpulan kata untuk menghitung kejadian
		foreach (string word in words)
		{
			string w = word.Trim().ToLower();
			if (w.Length > minWordLength)
			{
				if (!stats.ContainsKey(w))
				{
					stats.Add(w, 1); // add new word to collection
				}
				else
				{
					stats[w] += 1; // update word occurrence count
				}
			}
		}
		// mengurutkan koleksi berdasarkan jumlah kata
		var orderedStats = stats.OrderByDescending(x => x.Value);
		
    		// Cetak Hasil hitungan kata
		Console.WriteLine("Total word count: {0}", stats.Count);

    		foreach (var pair in orderedStats)
		{
			Console.WriteLine("Total occurrences of {0}: {1}", pair.Key, pair.Value);
		}
	}
}

Berikut adalah output dari kode di atas:

Jumlah Kemunculan Kata

Dapatkan Lisensi API Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk menggunakan API tanpa batasan evaluasi.

Kesimpulan

Singkatnya, Anda telah mempelajari cara menghitung kata dalam dokumen menggunakan C#. Selain itu, kami membahas cara mendapatkan jumlah kemunculan kata untuk setiap kata dalam dokumen. Coba kembangkan aplikasi .NET penghitung kata online Anda. Untuk detail lebih lanjut dan mempelajari tentang API, kunjungi dokumentasi. Untuk pertanyaan, hubungi kami melalui forum.

Lihat juga