Pisanie to nie tylko proste zadanie dla każdego. Zaleca się, aby nie powtarzać w kółko tych samych słów i zwrotów. W dzisiejszym świecie optymalizacji często trzeba liczyć, a następnie ograniczać powtarzalność słów i fraz. W tym artykule omówiono, jak programowo liczyć słowa w dokumentach i wystąpienia każdego słowa w Javie.

Java API do liczenia słów i wystąpień

GroupDocs.Parser przedstawia rozwiązanie do analizowania dokumentów dla programistów. Użyję jego Java API, tj. GroupDocs.Parser for Java do wyodrębniania tekstu z dokumentów i liczenia wystąpień. Interfejs API umożliwia także pobieranie obrazów i metadanych z dużej listy obsługiwanych formatów dokumentów, takich jak dokumenty edytorów tekstu, prezentacje, arkusze kalkulacyjne, e-maile, bazy danych, e-booki i wiele innych.

Pobierz i skonfiguruj

Pobierz bibliotekę z sekcji pobierania. W przypadku aplikacji Java opartej na Maven wystarczy dodać następującą konfigurację pom.xml. Następnie możesz uruchomić przykłady z tego artykułu i wiele innych przykładów dostępnych na GitHub. Aby uzyskać szczegółowe informacje, odwiedź Odniesienie do interfejsu API.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Policz słowa w dokumencie przy użyciu języka Java

Po pierwsze, ważne jest dokładne przeanalizowanie i wyodrębnienie całej treści dokumentu przed policzeniem słów. Po wydobyciu tekstu możemy łatwo podzielić jego zawartość na zbiór słów i fraz. Poniższe kroki pokazują, jak liczyć słowa w dokumencie przy użyciu języka Java.

  • Załaduj dokument za pomocą klasy Parser.
  • Pobierz tekst załadowanego dokumentu za pomocą TextReader.
  • Podziel tekst na słowa za pomocą ograniczników.
  • Wykonaj liczenie słów.

Poniższy kod źródłowy Java zlicza liczbę słów w dokumencie.

// Policz słowa w dokumencie PDF przy użyciu języka Java
// Policz unikalne słowa i ich wystąpienia w dokumencie PDF za pomocą języka Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

Policz słowa występujące w Javie

Podobnie możemy policzyć, ile razy w dokumencie pojawiło się określone lub dowolne unikalne słowo lub fraza. Korzystając z tej funkcji, możesz uniknąć powtórzeń dowolnego słowa w artykule. Poniższe kroki zliczają wystąpienia każdego słowa w dokumencie przy użyciu języka Java.

  • Załaduj dokument za pomocą klasy Parser.
  • Pobierz tekst załadowanego dokumentu za pomocą TextReader.
  • Przeczytaj i podziel cały tekst na zbiór słów.
  • Przejrzyj kolekcję słów, aby policzyć pojawienie się każdego słowa.

Poniższy fragment kodu Java zlicza wystąpienia każdego unikalnego słowa w dokumencie.

// Policz unikalne słowa i ich wystąpienia w dokumencie PDF za pomocą języka Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry ->{
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

Poniżej przedstawiono dane wyjściowe powyższego kodu:

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

Uzyskaj bezpłatną licencję API

Możesz uzyskać bezpłatną tymczasową licencję, aby korzystać z API bez ograniczeń ewaluacyjnych.

Wniosek

Podsumowując, nauczyłeś się liczyć słowa w dokumencie przy użyciu języka Java. Ponadto omówiliśmy, w jaki sposób możemy uzyskać liczbę wystąpień słów dla każdego słowa użytego w dokumencie. Spróbuj opracować aplikację Java do liczenia słów online. Aby uzyskać więcej informacji i dowiedzieć się więcej o interfejsie API, odwiedź dokumentację. W przypadku pytań skontaktuj się z nami za pośrednictwem forum.

Zobacz też