يمكن أن يؤدي تكرار البيانات إلى تقليل قيمة المحتوى. للعمل ككاتب ، يجب عليك اتباع مبدأ DRY (لا تكرر نفسك). يمكن أن تتيح لك الإحصائيات مثل عدد الكلمات أو عدد تكرارات كل كلمة تحليل المحتوى ولكن من الصعب القيام بذلك يدويًا لمستندات متعددة. لذلك توضح هذه المقالة كيفية حساب الكلمات برمجيًا وعدد مرات تكرار الكلمات في تنسيقات مستندات PDF و Word و Excel و PowerPoint و eBook و Markup والبريد الإلكتروني باستخدام C #.

.NET API لحساب الكلمات والأحداث

يوفر GroupDocs.Parser حل تحليل المستندات للمطورين. لاستخراج النص من المستندات ، وإحصاء التكرارات ، سنستخدم GroupDocs.Parser for .NET الخاص به. تسمح واجهة برمجة التطبيقات أيضًا باستخراج الصور والبيانات الوصفية من قائمة طويلة من تنسيقات المستندات المدعومة مثل مستندات معالجة الكلمات والعروض التقديمية وجداول البيانات ورسائل البريد الإلكتروني وقواعد البيانات والكتب الإلكترونية وغيرها الكثير.

يمكنك تنزيل DLLs أو MSI installer من قسم التنزيلات أو تثبيت API عن طريق إضافة الحزمة الخاصة بها إلى تطبيق .NET عبر NuGet.

PM> Install-Package GroupDocs.Parser

عد الكلمات باستخدام C

من أجل حساب الكلمات ، فإن الشيء الرئيسي هو تحليل واستخراج محتوى المستند بالكامل. بعد استخراج النص ، يمكننا تقسيم محتواه إلى مجموعة من الجمل والكلمات. تسمح الخطوة التالية بعد الكلمات داخل المستند باستخدام C #.

  • قم بتحميل المستند باستخدام فئة المحلل اللغوي.
  • قم بإحضار نص المستند الذي تم تحميله إلى TextReader.
  • احصل على the text of the document from the TextReader as a string.
  • قسّم النص إلى كلمات واحفظها في مجموعة سلاسل.
  • عد الكلمات.

تحسب التعليمات البرمجية المصدر C # التالية عدد الكلمات في المستند.

// عد الكلمات في مستند PDF باستخدام C #
using (Parser parser = new Parser("path/document.pdf"))
{                
	// استخرج نصًا إلى القارئ
	using (TextReader reader = parser.GetText())
	{
		string text = reader.ReadToEnd();
		char[] chars = { ' ', '.', ',', ';', ':', '?', '\n', '\r' };
		// تقسيم الكلمات
		string[] words = text.Split(chars);
		// طباعة إجمالي عدد الكلمات
		Console.WriteLine("Total word count: {0}", stats.Count);
	}
}

عد الكلمات التي تحدث في C

وبالمثل ، يمكننا حساب عدد المرات التي تم فيها استخدام كلمة أو عبارة معينة في المستند. باستخدام هذه الميزة ، يمكنك تجنب التكرار المفرط لأي كلمة داخل المقالة. تحسب الخطوات التالية حدوث كل كلمة مستخدمة في المستند.

  • قم بتحميل المستند باستخدام فئة المحلل اللغوي.
  • استرجع نص المستند الذي تم تحميله إلى TextReader.
  • اقرأ النص بالكامل وقسمه إلى مجموعة الكلمات.
  • اجتياز مجموعة الكلمات لحساب عدد الكلمات.

يحسب مقتطف التعليمات البرمجية C # التالي حدوث كل كلمة فريدة داخل المستند.

// عد الكلمات الفريدة وتكرارها في مستند PDF باستخدام C #
using (Parser parser = new Parser("path/document.pdf"))
{                
	// استخراج النص إلى TextReader
	using (TextReader reader = parser.GetText())
	{
		Dictionary<string, int> stats = new Dictionary<string, int>();
		string text = reader.ReadToEnd();
		char[] chars = { ' ', '.', ',', ';', ':', '?', '\n', '\r' };
		// تقسيم الكلمات
		string[] words = text.Split(chars);
		int minWordLength = 2; // Consider a word having more than 2 characters

		// كرر على مجموعة الكلمات لحساب التكرارات
		foreach (string word in words)
		{
			string w = word.Trim().ToLower();
			if (w.Length > minWordLength)
			{
				if (!stats.ContainsKey(w))
				{
					stats.Add(w, 1); // add new word to collection
				}
				else
				{
					stats[w] += 1; // update word occurrence count
				}
			}
		}
		// ترتيب المجموعة عن طريق عدد الكلمات
		var orderedStats = stats.OrderByDescending(x => x.Value);
		
    		// طباعة نتائج عدد الكلمات
		Console.WriteLine("Total word count: {0}", stats.Count);

    		foreach (var pair in orderedStats)
		{
			Console.WriteLine("Total occurrences of {0}: {1}", pair.Key, pair.Value);
		}
	}
}

ما يلي هو إخراج الكود أعلاه:

عدد مرات حدوث الكلمات

احصل على ترخيص API مجاني

يمكنك الحصول على ترخيص مؤقت مجاني من أجل استخدام واجهة برمجة التطبيقات بدون قيود التقييم.

استنتاج

لتلخيص ، تعلمت كيفية حساب الكلمات في مستند باستخدام C #. بالإضافة إلى ذلك ، ناقشنا كيف يمكننا الحصول على عدد تكرارات الكلمة لكل كلمة في المستند. حاول تطوير تطبيق .NET الخاص بعداد الكلمات على الإنترنت. لمزيد من التفاصيل والتعرف على API ، قم بزيارة التوثيق. للاستفسارات ، اتصل بنا عبر المنتدى.

أنظر أيضا