الكتابة ليست مجرد مهمة بسيطة للجميع. يوصى بعدم تكرار نفس الكلمات والعبارات مرارًا وتكرارًا. في عالم التحسين اليوم ، غالبًا ما تحتاج إلى العد ثم الحد من تكرار الكلمات والعبارات. تتناول هذه المقالة كيفية عد الكلمات برمجيًا في المستندات وتكرار كل كلمة في Java.

Java API لحساب الكلمات والأحداث

يعرض GroupDocs.Parser حل تحليل المستندات للمطورين. سأستخدم Java API الخاص به ، أي GroupDocs.Parser for Java لاستخراج النص من المستندات ، وإحصاء التكرارات. تسمح واجهة برمجة التطبيقات أيضًا باستخراج الصور والبيانات الوصفية لقائمة كبيرة من تنسيقات المستندات المدعومة مثل مستندات معالجة الكلمات والعروض التقديمية وجداول البيانات ورسائل البريد الإلكتروني وقواعد البيانات والكتب الإلكترونية وغيرها الكثير.

التنزيل والتكوين

احصل على المكتبة من قسم التنزيلات. بالنسبة إلى تطبيق Java المستند إلى Maven ، ما عليك سوى إضافة التكوين pom.xml التالي. بعد ذلك ، يمكنك تشغيل أمثلة هذه المقالة ، والعديد من الأمثلة الأخرى المتاحة على GitHub. للحصول على التفاصيل ، يمكنك زيارة مرجع API.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

عد الكلمات في المستند باستخدام Java

أولاً ، من المهم تحليل محتوى المستند بالكامل واستخراجه بدقة قبل عد الكلمات. بعد استخراج النص ، يمكننا بسهولة تقسيم محتواه إلى مجموعة من الكلمات والعبارات. توضح الخطوات التالية كيفية حساب الكلمات داخل المستند باستخدام Java.

  • قم بتحميل المستند باستخدام فئة المحلل اللغوي.
  • قم بإحضار نص المستند الذي تم تحميله باستخدام TextReader.
  • قسّم النص إلى كلمات باستخدام المحددات.
  • عد الكلمات.

تحسب التعليمات البرمجية المصدر لـ Java التالية عدد الكلمات في المستند.

// عد الكلمات في مستند PDF باستخدام Java
// عد الكلمات الفريدة وتكرارها في مستند PDF باستخدام Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

عد الكلمات التي تحدث في Java

وبالمثل ، يمكننا حساب عدد المرات التي ظهرت فيها كلمة أو عبارة معينة أو فريدة في المستند. باستخدام هذه الميزة ، يمكنك تجنب تكرار أي كلمة داخل المقالة. تحسب الخطوات التالية حدوث كل كلمة داخل المستند باستخدام Java.

  • قم بتحميل المستند باستخدام فئة المحلل اللغوي.
  • استرجع نص المستند الذي تم تحميله باستخدام TextReader.
  • قراءة وتقسيم النص بأكمله إلى مجموعة كلمات.
  • اجتياز مجموعة الكلمات لحساب مظهر كل كلمة.

يحسب مقتطف كود Java التالي حدوث كل كلمة فريدة داخل المستند.

// عد الكلمات الفريدة وتكرارها في مستند PDF باستخدام Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry -> {
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

ما يلي هو إخراج الكود أعلاه:

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

احصل على ترخيص API مجاني

يمكنك الحصول على ترخيص مؤقت مجاني من أجل استخدام واجهة برمجة التطبيقات بدون قيود التقييم.

استنتاج

في الختام ، تعلمت كيفية عد الكلمات في مستند باستخدام Java. بالإضافة إلى ذلك ، ناقشنا كيف يمكننا الحصول على عدد تكرارات الكلمة لكل كلمة مستخدمة في المستند. حاول تطوير تطبيق Java الخاص بعداد الكلمات عبر الإنترنت. لمزيد من التفاصيل والتعرف على API ، قم بزيارة التوثيق. للاستفسارات ، اتصل بنا عبر المنتدى.

أنظر أيضا