نوشتن فقط یک کار ساده برای همه نیست. توصیه می شود کلمات و عبارات مشابه را بارها و بارها تکرار نکنید. در دنیای امروزی بهینه سازی، اغلب نیاز به شمارش و سپس محدود کردن تکرار کلمات و عبارات دارید. این مقاله نحوه شمارش کلمات در اسناد و تعداد کلمات در Java را مورد بحث قرار می دهد.

Java API برای شمارش کلمات و رخدادها

GroupDocs.Parser راه حل تجزیه اسناد را برای توسعه دهندگان به نمایش می گذارد. من از Java API آن یعنی GroupDocs.Parser for Java برای استخراج متن از اسناد و شمارش رخدادها استفاده خواهم کرد. API همچنین امکان استخراج تصاویر و فراداده را برای لیست بزرگی از [فرمت‌های سند پشتیبانی شده3 مانند اسناد پردازش کلمه، ارائه‌ها، صفحات گسترده، ایمیل‌ها، پایگاه‌های داده، کتاب‌های الکترونیکی و بسیاری دیگر را فراهم می‌کند.

دانلود و پیکربندی کنید

کتابخانه را از بخش دانلودها دریافت کنید. برای برنامه Java مبتنی بر Maven خود، فقط پیکربندی pom.xml زیر را اضافه کنید. پس از این، می توانید نمونه های این مقاله و بسیاری از نمونه های دیگر موجود در GitHub را اجرا کنید. برای جزئیات، می توانید از مرجع API دیدن کنید.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

با استفاده از Java کلمات را در سند بشمارید

در مرحله اول، تجزیه و تحلیل دقیق و استخراج کل محتوای سند قبل از شمارش کلمات مهم است. پس از استخراج متن، به راحتی می توانیم محتوای آن را به مجموعه ای از کلمات و عبارات تقسیم کنیم. مراحل زیر نحوه شمارش کلمات درون سند را با استفاده از Java نشان می دهد.

  • سند را با استفاده از کلاس Parser بارگیری کنید.
  • متن سند بارگیری شده را با استفاده از TextReader واکشی کنید.
  • با استفاده از جداکننده، متن را به کلمات تقسیم کنید.
  • انجام شمارش کلمات

کد منبع Java زیر تعداد کلمات یک سند را می شمارد.

// شمارش کلمات در سند PDF با استفاده از جاوا
// شمارش کلمات منحصر به فرد و وقوع آنها در سند PDF با استفاده از جاوا
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

تعداد کلمات در Java را بشمارید

به همین ترتیب، می‌توان شمارش کرد که چند بار یک کلمه یا عبارت خاص یا منحصر به فرد در سند ظاهر شده است. با استفاده از این قابلیت می توانید از تکرار هر کلمه ای در مقاله جلوگیری کنید. مراحل زیر تعداد هر کلمه را در سند با استفاده از Java شمارش می کند.

  • سند را با استفاده از کلاس Parser بارگیری کنید.
  • متن سند بارگیری شده را با استفاده از TextReader بازیابی کنید.
  • کل متن را بخوانید و به مجموعه کلمات تقسیم کنید.
  • از مجموعه کلمات عبور کنید تا ظاهر هر کلمه را بشمارید.

قطعه کد Java زیر تعداد هر کلمه منحصر به فرد را در سند می شمارد.

// شمارش کلمات منحصر به فرد و وقوع آنها در سند PDF با استفاده از جاوا
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry ->{
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

خروجی کد بالا به صورت زیر است:

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

مجوز API رایگان دریافت کنید

برای استفاده از API بدون محدودیت های ارزیابی، می توانید یک مجوز موقت رایگان دریافت کنید.

نتیجه

برای نتیجه گیری، یاد گرفتید که چگونه کلمات را در یک سند با استفاده از Java بشمارید. علاوه بر این، در مورد اینکه چگونه می‌توانیم تعداد وقوع کلمه را برای هر کلمه استفاده شده در سند به دست آوریم، بحث کردیم. سعی کنید برنامه Java کلمه شمار آنلاین خود را توسعه دهید. برای جزئیات بیشتر و کسب اطلاعات در مورد API، به مستندات مراجعه کنید. برای سؤالات، از طریق [فروم 12 با ما تماس بگیرید.

همچنین ببینید