Pisanie to nie tylko proste zadanie dla każdego. Zaleca się, aby nie powtarzać w kółko tych samych słów i zwrotów. W dzisiejszym świecie optymalizacji często trzeba liczyć, a następnie ograniczać powtarzalność słów i fraz. W tym artykule omówiono, jak programowo liczyć słowa w dokumentach i wystąpienia każdego słowa w Javie.
Java API do liczenia słów i wystąpień
GroupDocs.Parser przedstawia rozwiązanie do analizowania dokumentów dla programistów. Użyję jego Java API, tj. GroupDocs.Parser for Java do wyodrębniania tekstu z dokumentów i liczenia wystąpień. Interfejs API umożliwia także pobieranie obrazów i metadanych z dużej listy obsługiwanych formatów dokumentów, takich jak dokumenty edytorów tekstu, prezentacje, arkusze kalkulacyjne, e-maile, bazy danych, e-booki i wiele innych.
Pobierz i skonfiguruj
Pobierz bibliotekę z sekcji pobierania. W przypadku aplikacji Java opartej na Maven wystarczy dodać następującą konfigurację pom.xml. Następnie możesz uruchomić przykłady z tego artykułu i wiele innych przykładów dostępnych na GitHub. Aby uzyskać szczegółowe informacje, odwiedź Odniesienie do interfejsu API.
<repository>
<id>GroupDocsJavaAPI</id>
<name>GroupDocs Java API</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>22.3</version>
</dependency>
Policz słowa w dokumencie przy użyciu języka Java
Po pierwsze, ważne jest dokładne przeanalizowanie i wyodrębnienie całej treści dokumentu przed policzeniem słów. Po wydobyciu tekstu możemy łatwo podzielić jego zawartość na zbiór słów i fraz. Poniższe kroki pokazują, jak liczyć słowa w dokumencie przy użyciu języka Java.
- Załaduj dokument za pomocą klasy Parser.
- Pobierz tekst załadowanego dokumentu za pomocą TextReader.
- Podziel tekst na słowa za pomocą ograniczników.
- Wykonaj liczenie słów.
Poniższy kod źródłowy Java zlicza liczbę słów w dokumencie.
// Policz słowa w dokumencie PDF przy użyciu języka Java
// Policz unikalne słowa i ich wystąpienia w dokumencie PDF za pomocą języka Java
try (Parser parser = new Parser("path/document.pdf")) {
TextReader reader = parser.getText();
String text = reader.readToEnd();
String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
System.out.println("Length:" + words.length);
}
Policz słowa występujące w Javie
Podobnie możemy policzyć, ile razy w dokumencie pojawiło się określone lub dowolne unikalne słowo lub fraza. Korzystając z tej funkcji, możesz uniknąć powtórzeń dowolnego słowa w artykule. Poniższe kroki zliczają wystąpienia każdego słowa w dokumencie przy użyciu języka Java.
- Załaduj dokument za pomocą klasy Parser.
- Pobierz tekst załadowanego dokumentu za pomocą TextReader.
- Przeczytaj i podziel cały tekst na zbiór słów.
- Przejrzyj kolekcję słów, aby policzyć pojawienie się każdego słowa.
Poniższy fragment kodu Java zlicza wystąpienia każdego unikalnego słowa w dokumencie.
// Policz unikalne słowa i ich wystąpienia w dokumencie PDF za pomocą języka Java
try (Parser parser = new Parser("path/document.pdf")) {
TextReader reader = parser.getText();
String text = reader.readToEnd();
String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();
int minWordLength = 2;
for (String word : words)
{
String uniqueWord = word.toLowerCase();
if (uniqueWord.length() > minWordLength)
{
if (wordCountTable.containsKey(uniqueWord)) {
wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
wordCountTable.get(uniqueWord).intValue() + 1);
} else {
wordCountTable.put(uniqueWord, 1);
}
}
}
wordCountTable.entrySet().forEach(entry ->{
System.out.println(entry.getKey() + ": " + entry.getValue());
});
}
Poniżej przedstawiono dane wyjściowe powyższego kodu:
lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...
Uzyskaj bezpłatną licencję API
Możesz uzyskać bezpłatną tymczasową licencję, aby korzystać z API bez ograniczeń ewaluacyjnych.
Wniosek
Podsumowując, nauczyłeś się liczyć słowa w dokumencie przy użyciu języka Java. Ponadto omówiliśmy, w jaki sposób możemy uzyskać liczbę wystąpień słów dla każdego słowa użytego w dokumencie. Spróbuj opracować aplikację Java do liczenia słów online. Aby uzyskać więcej informacji i dowiedzieć się więcej o interfejsie API, odwiedź dokumentację. W przypadku pytań skontaktuj się z nami za pośrednictwem forum.