글쓰기는 모든 사람에게 단순한 작업이 아닙니다. 같은 단어와 구문을 반복해서 반복하지 않는 것이 좋습니다. 오늘날의 최적화 세계에서는 단어와 구의 반복을 세고 제한해야 하는 경우가 많습니다. 이 기사에서는 문서의 단어를 프로그래밍 방식으로 계산하는 방법과 Java에서 각 단어의 발생을 설명합니다.

단어 및 발생 횟수를 계산하는 Java API

GroupDocs.Parser는 개발자를 위한 문서 파싱 솔루션을 보여줍니다. 나는 문서에서 텍스트를 추출하고 발생 횟수를 계산하기 위해 Java API, 즉 GroupDocs.Parser for Java를 사용할 것입니다. API는 또한 워드 프로세서 문서, 프리젠테이션, 스프레드시트, 이메일, 데이터베이스, eBook 및 기타 많은 지원되는 문서 형식의 많은 목록에 대한 이미지 및 메타데이터 추출을 허용합니다.

다운로드 및 구성

다운로드 섹션에서 라이브러리를 가져옵니다. Maven 기반 Java 애플리케이션의 경우 다음 pom.xml 구성을 추가하기만 하면 됩니다. 그런 다음 이 기사의 예제와 GitHub에서 더 많은 예제를 실행할 수 있습니다. 자세한 내용은 API 참조를 참조하세요.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Java를 사용하여 문서의 단어 수 계산

첫째, 단어를 세기 전에 문서의 전체 내용을 정확하게 구문 분석하고 추출하는 것이 중요합니다. 텍스트를 추출한 후 내용을 단어와 구 모음으로 쉽게 나눌 수 있습니다. 다음 단계는 Java를 사용하여 문서 내의 단어 수를 계산하는 방법을 보여줍니다.

  • Parser 클래스를 사용하여 문서를 로드합니다.
  • TextReader를 사용하여 로드된 문서의 텍스트를 가져옵니다.
  • 구분 기호를 사용하여 텍스트를 단어로 나눕니다.
  • 단어 수를 계산합니다.

다음 Java 소스 코드는 문서의 단어 수를 계산합니다.

// Java를 사용하여 PDF 문서의 단어 수 계산
// Java를 사용하여 PDF 문서에서 고유한 단어 및 해당 발생 횟수 계산
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

Java에서 단어 발생 횟수 계산

마찬가지로, 특정 또는 고유한 단어나 구가 문서에 나타난 횟수를 셀 수 있습니다. 이 기능을 사용하면 기사 내에서 단어의 반복을 피할 수 있습니다. 다음 단계는 Java를 사용하여 문서 내에서 각 단어의 발생을 계산합니다.

  • Parser 클래스를 사용하여 문서를 로드합니다.
  • TextReader를 사용하여 로드된 문서의 텍스트를 검색합니다.
  • 전체 텍스트를 읽고 단어 모음으로 나눕니다.
  • 단어 모음을 탐색하여 각 단어의 모양을 계산합니다.

다음 Java 코드 조각은 문서 내에서 고유한 각 단어의 발생을 계산합니다.

// Java를 사용하여 PDF 문서에서 고유한 단어 및 해당 발생 횟수 계산
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry -> {
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

다음은 위 코드의 출력입니다.

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

무료 API 라이선스 받기

평가 제한 없이 API를 사용하기 위해 임시 무료 라이선스 받기를 할 수 있습니다.

결론

결론적으로 Java를 사용하여 문서의 단어 수를 계산하는 방법을 배웠습니다. 또한 문서에 사용된 각 단어에 대한 단어 발생 횟수를 얻는 방법에 대해 논의했습니다. 온라인 단어 카운터 Java 응용 프로그램을 개발해 보십시오. API에 대한 자세한 내용 및 학습은 문서를 참조하십시오. 문의 사항은 포럼을 통해 문의해 주세요.

또한보십시오