Java를 사용하여 문서에서 단어 및 각 단어의 발생 횟수 계산

글쓰기는 모든 사람에게 단순한 작업이 아닙니다. 같은 단어와 구문을 반복해서 반복하지 않는 것이 좋습니다. 오늘날의 최적화 세계에서는 단어와 구의 반복을 세고 제한해야 하는 경우가 많습니다. 이 기사에서는 문서의 단어를 프로그래밍 방식으로 계산하는 방법과 Java에서 각 단어의 발생을 설명합니다.

단어 및 발생 횟수를 계산하는 Java API

GroupDocs.Parser는 개발자를 위한 문서 파싱 솔루션을 보여줍니다. 나는 문서에서 텍스트를 추출하고 발생 횟수를 계산하기 위해 Java API, 즉 GroupDocs.Parser for Java를 사용할 것입니다. API는 또한 워드 프로세서 문서, 프리젠테이션, 스프레드시트, 이메일, 데이터베이스, eBook 및 기타 많은 지원되는 문서 형식의 많은 목록에 대한 이미지 및 메타데이터 추출을 허용합니다.

다운로드 및 구성

다운로드 섹션에서 라이브러리를 가져옵니다. Maven 기반 Java 애플리케이션의 경우 다음 pom.xml 구성을 추가하기만 하면 됩니다. 그런 다음 이 기사의 예제와 GitHub에서 더 많은 예제를 실행할 수 있습니다. 자세한 내용은 API 참조를 참조하세요.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Java를 사용하여 문서의 단어 수 계산

첫째, 단어를 세기 전에 문서의 전체 내용을 정확하게 구문 분석하고 추출하는 것이 중요합니다. 텍스트를 추출한 후 내용을 단어와 구 모음으로 쉽게 나눌 수 있습니다. 다음 단계는 Java를 사용하여 문서 내의 단어 수를 계산하는 방법을 보여줍니다.

Parser 클래스를 사용하여 문서를 로드합니다.
TextReader를 사용하여 로드된 문서의 텍스트를 가져옵니다.
구분 기호를 사용하여 텍스트를 단어로 나눕니다.
단어 수를 계산합니다.

다음 Java 소스 코드는 문서의 단어 수를 계산합니다.

// Java를 사용하여 PDF 문서의 단어 수 계산
// Java를 사용하여 PDF 문서에서 고유한 단어 및 해당 발생 횟수 계산
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

Java에서 단어 발생 횟수 계산

마찬가지로, 특정 또는 고유한 단어나 구가 문서에 나타난 횟수를 셀 수 있습니다. 이 기능을 사용하면 기사 내에서 단어의 반복을 피할 수 있습니다. 다음 단계는 Java를 사용하여 문서 내에서 각 단어의 발생을 계산합니다.

Parser 클래스를 사용하여 문서를 로드합니다.
TextReader를 사용하여 로드된 문서의 텍스트를 검색합니다.
전체 텍스트를 읽고 단어 모음으로 나눕니다.
단어 모음을 탐색하여 각 단어의 모양을 계산합니다.

다음 Java 코드 조각은 문서 내에서 고유한 각 단어의 발생을 계산합니다.

// Java를 사용하여 PDF 문서에서 고유한 단어 및 해당 발생 횟수 계산
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry -> {
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

다음은 위 코드의 출력입니다.

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

무료 API 라이선스 받기

평가 제한 없이 API를 사용하기 위해 임시 무료 라이선스 받기를 할 수 있습니다.

결론

결론적으로 Java를 사용하여 문서의 단어 수를 계산하는 방법을 배웠습니다. 또한 문서에 사용된 각 단어에 대한 단어 발생 횟수를 얻는 방법에 대해 논의했습니다. 온라인 단어 카운터 Java 응용 프로그램을 개발해 보십시오. API에 대한 자세한 내용 및 학습은 문서를 참조하십시오. 문의 사항은 포럼을 통해 문의해 주세요.

단어 및 발생 횟수를 계산하는 Java API#

다운로드 및 구성#

Java를 사용하여 문서의 단어 수 계산#

Java에서 단어 발생 횟수 계산#

무료 API 라이선스 받기#

결론#

또한보십시오#

단어 및 발생 횟수를 계산하는 Java API

다운로드 및 구성

Java를 사용하여 문서의 단어 수 계산

Java에서 단어 발생 횟수 계산

무료 API 라이선스 받기

결론

또한보십시오