การเขียนไม่ใช่แค่งานง่ายๆ สำหรับทุกคน ขอแนะนำว่าอย่าใช้คำและวลีเดิมซ้ำแล้วซ้ำอีก ในโลกของการเพิ่มประสิทธิภาพในปัจจุบัน คุณมักจะต้องนับและจำกัดการทำซ้ำของคำและวลี บทความนี้กล่าวถึงวิธีการนับคำในเอกสารทางโปรแกรมและการเกิดขึ้นของแต่ละคำใน Java
Java API เพื่อนับคำและเหตุการณ์
GroupDocs.Parser แสดงโซลูชันการแยกวิเคราะห์เอกสารสำหรับนักพัฒนา ฉันจะใช้ Java API เช่น GroupDocs.Parser for Java สำหรับการดึงข้อความจากเอกสารและการนับเหตุการณ์ API ยังอนุญาตรูปภาพและการดึงข้อมูลเมตาสำหรับรายการขนาดใหญ่ของ รูปแบบเอกสารที่รองรับ เช่น เอกสารประมวลผลคำ งานนำเสนอ สเปรดชีต อีเมล ฐานข้อมูล eBook และอื่นๆ อีกมากมาย
ดาวน์โหลดและกำหนดค่า
รับไลบรารีจาก ส่วนดาวน์โหลด สำหรับแอปพลิเคชัน Java ที่ใช้ Maven เพียงเพิ่มการกำหนดค่า pom.xml ต่อไปนี้ หลังจากนี้ คุณสามารถเรียกใช้ตัวอย่างของบทความนี้ และตัวอย่างอื่นๆ อีกมากมายที่มีอยู่ใน GitHub สำหรับรายละเอียด คุณสามารถไปที่ ข้อมูลอ้างอิง API
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.3</version>
</dependency>
นับคำในเอกสารโดยใช้ Java
ประการแรก สิ่งสำคัญคือต้องแยกวิเคราะห์และแยกเนื้อหาทั้งหมดของเอกสารอย่างถูกต้องก่อนที่จะนับคำ หลังจากแยกข้อความแล้ว เราสามารถแยกเนื้อหาออกเป็นกลุ่มคำและวลีได้อย่างง่ายดาย ขั้นตอนต่อไปนี้แสดงวิธีการนับคำภายในเอกสารโดยใช้ Java
- โหลดเอกสารโดยใช้คลาส Parser
- ดึงข้อความของเอกสารที่โหลดโดยใช้ TextReader
- แยกข้อความเป็นคำโดยใช้ตัวคั่น
- ทำการนับคำ
ซอร์สโค้ด Java ต่อไปนี้นับจำนวนคำในเอกสาร
// นับคำในเอกสาร PDF โดยใช้ Java
// นับคำที่ไม่ซ้ำและการเกิดขึ้นในเอกสาร PDF โดยใช้ Java
try (Parser parser = new Parser("path/document.pdf")) {
TextReader reader = parser.getText();
String text = reader.readToEnd();
String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
System.out.println("Length:" + words.length);
}
นับคำที่เกิดขึ้นใน Java
ในทำนองเดียวกัน เราสามารถนับจำนวนครั้งที่คำหรือวลีใดคำหนึ่งหรือเฉพาะใดๆ ปรากฏในเอกสาร เมื่อใช้คุณลักษณะนี้ คุณสามารถหลีกเลี่ยงการซ้ำคำใดๆ ในบทความได้ ขั้นตอนต่อไปนี้นับการเกิดขึ้นของแต่ละคำภายในเอกสารโดยใช้ Java
- โหลดเอกสารโดยใช้คลาส Parser
- รับข้อความของเอกสารที่โหลดโดยใช้ TextReader
- อ่านและแยกข้อความทั้งหมดออกเป็นชุดคำ
- สำรวจคอลเลกชันคำเพื่อนับลักษณะที่ปรากฏของแต่ละคำ
ข้อมูลโค้ด Java ต่อไปนี้นับการเกิดขึ้นของแต่ละคำที่ไม่ซ้ำกันภายในเอกสาร
// นับคำที่ไม่ซ้ำและการเกิดขึ้นในเอกสาร PDF โดยใช้ Java
try (Parser parser = new Parser("path/document.pdf")) {
TextReader reader = parser.getText();
String text = reader.readToEnd();
String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();
int minWordLength = 2;
for (String word : words)
{
String uniqueWord = word.toLowerCase();
if (uniqueWord.length() > minWordLength)
{
if (wordCountTable.containsKey(uniqueWord)) {
wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
wordCountTable.get(uniqueWord).intValue() + 1);
} else {
wordCountTable.put(uniqueWord, 1);
}
}
}
wordCountTable.entrySet().forEach(entry ->{
System.out.println(entry.getKey() + ": " + entry.getValue());
});
}
ต่อไปนี้เป็นผลลัพธ์ของโค้ดด้านบน:
lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...
รับใบอนุญาต API ฟรี
คุณสามารถ รับใบอนุญาตชั่วคราวได้ฟรี เพื่อใช้ API โดยไม่มีข้อจำกัดในการประเมิน
บทสรุป
โดยสรุป คุณได้เรียนรู้วิธีการนับคำในเอกสารโดยใช้ Java นอกจากนี้ เรายังกล่าวถึงวิธีการหาจำนวนคำที่เกิดขึ้นสำหรับแต่ละคำที่ใช้ในเอกสาร ลองพัฒนาแอปพลิเคชัน Java ตัวนับคำออนไลน์ของคุณ สำหรับรายละเอียดเพิ่มเติมและเรียนรู้เกี่ยวกับ API โปรดไปที่ เอกสารประกอบ สำหรับข้อสงสัย ติดต่อเราผ่านทาง ฟอรัม