Писати – це не просто завдання для всіх. Рекомендується не повторювати одні й ті самі слова та фрази знову і знову. У сучасному світі оптимізації часто потрібно порахувати, а потім обмежити повторення слів і фраз. У цій статті обговорюється, як програмно підраховувати слова в документах і входження кожного слова в Java.

Java API для підрахунку слів і випадків

GroupDocs.Parser демонструє рішення для аналізу документів для розробників. Я буду використовувати його Java API, тобто GroupDocs.Parser for Java для вилучення тексту з документів і підрахунку випадків. API також дозволяє видобувати зображення та метадані для великого списку підтримуваних форматів документів, таких як документи для обробки текстів, презентації, електронні таблиці, електронні листи, бази даних, електронні книги та багато інших.

Завантажте та налаштуйте

Отримайте бібліотеку з розділу завантажень. Для програми Java на основі Maven просто додайте наступну конфігурацію pom.xml. Після цього ви можете запустити приклади цієї статті та багато інших прикладів, доступних на GitHub. Щоб отримати докладніші відомості, ви можете відвідати Довідник API.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Підрахунок слів у документі за допомогою Java

По-перше, важливо точно проаналізувати та витягнути весь вміст документа перед підрахунком слів. Після виділення тексту ми можемо легко розділити його вміст на набір слів і фраз. Наступні кроки показують, як підрахувати слова в документі за допомогою Java.

  • Завантажте документ за допомогою класу Parser.
  • Отримайте текст завантаженого документа за допомогою TextReader.
  • Розділіть текст на слова за допомогою роздільників.
  • Виконайте підрахунок слів.

Наведений нижче вихідний код Java підраховує кількість слів у документі.

// Підрахунок слів у PDF-документі за допомогою Java
// Підраховуйте унікальні слова та їх входження в PDF-документ за допомогою Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

Підрахунок повторень слів у Java

Так само ми можемо підрахувати, скільки разів певне або будь-яке унікальне слово чи фраза з’явилося в документі. Використовуючи цю функцію, ви можете уникнути повторення будь-якого слова в статті. У наступних кроках підраховується кількість випадків появи кожного слова в документі за допомогою Java.

  • Завантажте документ за допомогою класу Parser.
  • Отримайте текст завантаженого документа за допомогою TextReader.
  • Прочитайте та розділіть весь текст на збірку слів.
  • Перегляньте колекцію слів, щоб підрахувати появу кожного слова.

Наведений нижче фрагмент коду Java підраховує випадки появи кожного унікального слова в документі.

// Підраховуйте унікальні слова та їх входження в PDF-документ за допомогою Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry ->{
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

Нижче наведено результат наведеного вище коду:

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

Отримайте безкоштовну ліцензію API

Ви можете отримати безкоштовну тимчасову ліцензію, щоб використовувати API без оціночних обмежень.

Висновок

Підсумовуючи, ви навчилися рахувати слова в документі за допомогою Java. Крім того, ми обговорили, як ми можемо отримати кількість входжень слова для кожного слова, що використовується в документі. Спробуйте розробити свій Java-додаток онлайн-лічильника слів. Щоб дізнатися більше та дізнатися про API, відвідайте документацію. Якщо у вас виникли запитання, зв’яжіться з нами через форум.

Дивись також