글쓰기는 모든 사람에게 단순한 작업이 아닙니다. 같은 단어와 구문을 반복해서 반복하지 않는 것이 좋습니다. 오늘날의 최적화 세계에서는 단어와 구의 반복을 세고 제한해야 하는 경우가 많습니다. 이 기사에서는 문서의 단어를 프로그래밍 방식으로 계산하는 방법과 Java에서 각 단어의 발생을 설명합니다.
단어 및 발생 횟수를 계산하는 Java API
GroupDocs.Parser는 개발자를 위한 문서 파싱 솔루션을 보여줍니다. 나는 문서에서 텍스트를 추출하고 발생 횟수를 계산하기 위해 Java API, 즉 GroupDocs.Parser for Java를 사용할 것입니다. API는 또한 워드 프로세서 문서, 프리젠테이션, 스프레드시트, 이메일, 데이터베이스, eBook 및 기타 많은 지원되는 문서 형식의 많은 목록에 대한 이미지 및 메타데이터 추출을 허용합니다.
다운로드 및 구성
다운로드 섹션에서 라이브러리를 가져옵니다. Maven 기반 Java 애플리케이션의 경우 다음 pom.xml 구성을 추가하기만 하면 됩니다. 그런 다음 이 기사의 예제와 GitHub에서 더 많은 예제를 실행할 수 있습니다. 자세한 내용은 API 참조를 참조하세요.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.3</version>
</dependency>
Java를 사용하여 문서의 단어 수 계산
첫째, 단어를 세기 전에 문서의 전체 내용을 정확하게 구문 분석하고 추출하는 것이 중요합니다. 텍스트를 추출한 후 내용을 단어와 구 모음으로 쉽게 나눌 수 있습니다. 다음 단계는 Java를 사용하여 문서 내의 단어 수를 계산하는 방법을 보여줍니다.
- Parser 클래스를 사용하여 문서를 로드합니다.
- TextReader를 사용하여 로드된 문서의 텍스트를 가져옵니다.
- 구분 기호를 사용하여 텍스트를 단어로 나눕니다.
- 단어 수를 계산합니다.
다음 Java 소스 코드는 문서의 단어 수를 계산합니다.
// Java를 사용하여 PDF 문서의 단어 수 계산
// Java를 사용하여 PDF 문서에서 고유한 단어 및 해당 발생 횟수 계산
try (Parser parser = new Parser("path/document.pdf")) {
TextReader reader = parser.getText();
String text = reader.readToEnd();
String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
System.out.println("Length:" + words.length);
}
Java에서 단어 발생 횟수 계산
마찬가지로, 특정 또는 고유한 단어나 구가 문서에 나타난 횟수를 셀 수 있습니다. 이 기능을 사용하면 기사 내에서 단어의 반복을 피할 수 있습니다. 다음 단계는 Java를 사용하여 문서 내에서 각 단어의 발생을 계산합니다.
- Parser 클래스를 사용하여 문서를 로드합니다.
- TextReader를 사용하여 로드된 문서의 텍스트를 검색합니다.
- 전체 텍스트를 읽고 단어 모음으로 나눕니다.
- 단어 모음을 탐색하여 각 단어의 모양을 계산합니다.
다음 Java 코드 조각은 문서 내에서 고유한 각 단어의 발생을 계산합니다.
// Java를 사용하여 PDF 문서에서 고유한 단어 및 해당 발생 횟수 계산
try (Parser parser = new Parser("path/document.pdf")) {
TextReader reader = parser.getText();
String text = reader.readToEnd();
String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();
int minWordLength = 2;
for (String word : words)
{
String uniqueWord = word.toLowerCase();
if (uniqueWord.length() > minWordLength)
{
if (wordCountTable.containsKey(uniqueWord)) {
wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
wordCountTable.get(uniqueWord).intValue() + 1);
} else {
wordCountTable.put(uniqueWord, 1);
}
}
}
wordCountTable.entrySet().forEach(entry -> {
System.out.println(entry.getKey() + ": " + entry.getValue());
});
}
다음은 위 코드의 출력입니다.
lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...
무료 API 라이선스 받기
평가 제한 없이 API를 사용하기 위해 임시 무료 라이선스 받기를 할 수 있습니다.
결론
결론적으로 Java를 사용하여 문서의 단어 수를 계산하는 방법을 배웠습니다. 또한 문서에 사용된 각 단어에 대한 단어 발생 횟수를 얻는 방법에 대해 논의했습니다. 온라인 단어 카운터 Java 응용 프로그램을 개발해 보십시오. API에 대한 자세한 내용 및 학습은 문서를 참조하십시오. 문의 사항은 포럼을 통해 문의해 주세요.