การเขียนไม่ใช่แค่งานง่ายๆ สำหรับทุกคน ขอแนะนำว่าอย่าใช้คำและวลีเดิมซ้ำแล้วซ้ำอีก ในโลกของการเพิ่มประสิทธิภาพในปัจจุบัน คุณมักจะต้องนับและจำกัดการทำซ้ำของคำและวลี บทความนี้กล่าวถึงวิธีการนับคำในเอกสารทางโปรแกรมและการเกิดขึ้นของแต่ละคำใน Java

Java API เพื่อนับคำและเหตุการณ์

GroupDocs.Parser แสดงโซลูชันการแยกวิเคราะห์เอกสารสำหรับนักพัฒนา ฉันจะใช้ Java API เช่น GroupDocs.Parser for Java สำหรับการดึงข้อความจากเอกสารและการนับเหตุการณ์ API ยังอนุญาตรูปภาพและการดึงข้อมูลเมตาสำหรับรายการขนาดใหญ่ของ รูปแบบเอกสารที่รองรับ เช่น เอกสารประมวลผลคำ งานนำเสนอ สเปรดชีต อีเมล ฐานข้อมูล eBook และอื่นๆ อีกมากมาย

ดาวน์โหลดและกำหนดค่า

รับไลบรารีจาก ส่วนดาวน์โหลด สำหรับแอปพลิเคชัน Java ที่ใช้ Maven เพียงเพิ่มการกำหนดค่า pom.xml ต่อไปนี้ หลังจากนี้ คุณสามารถเรียกใช้ตัวอย่างของบทความนี้ และตัวอย่างอื่นๆ อีกมากมายที่มีอยู่ใน GitHub สำหรับรายละเอียด คุณสามารถไปที่ ข้อมูลอ้างอิง API

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

นับคำในเอกสารโดยใช้ Java

ประการแรก สิ่งสำคัญคือต้องแยกวิเคราะห์และแยกเนื้อหาทั้งหมดของเอกสารอย่างถูกต้องก่อนที่จะนับคำ หลังจากแยกข้อความแล้ว เราสามารถแยกเนื้อหาออกเป็นกลุ่มคำและวลีได้อย่างง่ายดาย ขั้นตอนต่อไปนี้แสดงวิธีการนับคำภายในเอกสารโดยใช้ Java

  • โหลดเอกสารโดยใช้คลาส Parser
  • ดึงข้อความของเอกสารที่โหลดโดยใช้ TextReader
  • แยกข้อความเป็นคำโดยใช้ตัวคั่น
  • ทำการนับคำ

ซอร์สโค้ด Java ต่อไปนี้นับจำนวนคำในเอกสาร

// นับคำในเอกสาร PDF โดยใช้ Java
// นับคำที่ไม่ซ้ำและการเกิดขึ้นในเอกสาร PDF โดยใช้ Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

นับคำที่เกิดขึ้นใน Java

ในทำนองเดียวกัน เราสามารถนับจำนวนครั้งที่คำหรือวลีใดคำหนึ่งหรือเฉพาะใดๆ ปรากฏในเอกสาร เมื่อใช้คุณลักษณะนี้ คุณสามารถหลีกเลี่ยงการซ้ำคำใดๆ ในบทความได้ ขั้นตอนต่อไปนี้นับการเกิดขึ้นของแต่ละคำภายในเอกสารโดยใช้ Java

  • โหลดเอกสารโดยใช้คลาส Parser
  • รับข้อความของเอกสารที่โหลดโดยใช้ TextReader
  • อ่านและแยกข้อความทั้งหมดออกเป็นชุดคำ
  • สำรวจคอลเลกชันคำเพื่อนับลักษณะที่ปรากฏของแต่ละคำ

ข้อมูลโค้ด Java ต่อไปนี้นับการเกิดขึ้นของแต่ละคำที่ไม่ซ้ำกันภายในเอกสาร

// นับคำที่ไม่ซ้ำและการเกิดขึ้นในเอกสาร PDF โดยใช้ Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry ->{
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

ต่อไปนี้เป็นผลลัพธ์ของโค้ดด้านบน:

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

รับใบอนุญาต API ฟรี

คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อใช้ API โดยไม่มีข้อจำกัดในการประเมิน

บทสรุป

โดยสรุป คุณได้เรียนรู้วิธีการนับคำในเอกสารโดยใช้ Java นอกจากนี้ เรายังกล่าวถึงวิธีการหาจำนวนคำที่เกิดขึ้นสำหรับแต่ละคำที่ใช้ในเอกสาร ลองพัฒนาแอปพลิเคชัน Java ตัวนับคำออนไลน์ของคุณ สำหรับรายละเอียดเพิ่มเติมและเรียนรู้เกี่ยวกับ API โปรดไปที่ เอกสารประกอบ สำหรับข้อสงสัย ติดต่อเราผ่านทาง ฟอรัม

ดูสิ่งนี้ด้วย