Schreiben ist nicht nur eine einfache Aufgabe für jedermann. Es wird empfohlen, dieselben Wörter und Sätze nicht immer wieder zu wiederholen. In der heutigen Welt der Optimierung müssen Sie oft die Wiederholung von Wörtern und Sätzen zählen und dann einschränken. Dieser Artikel beschreibt, wie Wörter in Dokumenten programmgesteuert gezählt werden und wie die einzelnen Wörter in Java vorkommen.

Java-API zum Zählen von Wörtern und Vorkommen

GroupDocs.Parser präsentiert die Dokumentenanalyselösung für Entwickler. Ich werde seine Java-API, dh GroupDocs.Parser for Java, zum Extrahieren von Text aus Dokumenten und zum Zählen von Vorkommen verwenden. Die API ermöglicht auch die Bild- und Metadatenextraktion für eine große Liste von unterstützten Dokumentformaten wie Textverarbeitungsdokumente, Präsentationen, Tabellenkalkulationen, E-Mails, Datenbanken, eBooks und viele andere.

Herunterladen und konfigurieren

Holen Sie sich die Bibliothek aus dem Download-Bereich. Fügen Sie für Ihre Maven-basierte Java-Anwendung einfach die folgende pom.xml-Konfiguration hinzu. Danach können Sie die Beispiele dieses Artikels und viele weitere Beispiele ausführen, die auf GitHub verfügbar sind. Einzelheiten finden Sie in der API-Referenz.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Wörter im Dokument mit Java zählen

Erstens ist es wichtig, den gesamten Inhalt des Dokuments genau zu analysieren und zu extrahieren, bevor die Wörter gezählt werden. Nach der Extraktion des Textes können wir seinen Inhalt leicht in eine Sammlung von Wörtern und Phrasen aufteilen. Die folgenden Schritte zeigen, wie die Wörter innerhalb des Dokuments mit Java gezählt werden.

  • Laden Sie das Dokument mit der Klasse Parser.
  • Rufen Sie den Text des geladenen Dokuments mit TextReader ab.
  • Unterteilen Sie den Text mithilfe von Trennzeichen in Wörter.
  • Wortzählung durchführen.

Der folgende Java-Quellcode zählt die Anzahl der Wörter in einem Dokument.

// Zählen Sie Wörter in PDF-Dokumenten mit Java
// Zählen Sie einzigartige Wörter und deren Vorkommen in PDF-Dokumenten mit Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

Wörter zählen Vorkommen in Java

Ebenso können wir zählen, wie oft ein bestimmtes oder ein einzigartiges Wort oder eine Phrase im Dokument vorkommt. Durch die Verwendung dieser Funktion können Sie die Wiederholung von Wörtern innerhalb des Artikels vermeiden. Die folgenden Schritte zählen das Vorkommen jedes Wortes innerhalb des Dokuments unter Verwendung von Java.

  • Laden Sie das Dokument mit der Klasse Parser.
  • Rufen Sie den Text des geladenen Dokuments mit TextReader ab.
  • Lesen Sie den gesamten Text und teilen Sie ihn in eine Wortsammlung auf.
  • Durchsuchen Sie die Wortsammlung, um das Auftreten jedes Wortes zu zählen.

Das folgende Java-Code-Snippet zählt das Vorkommen jedes eindeutigen Wortes innerhalb des Dokuments.

// Zählen Sie einzigartige Wörter und deren Vorkommen in PDF-Dokumenten mit Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry -> {
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

Das Folgende ist die Ausgabe des obigen Codes:

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

Holen Sie sich eine kostenlose API-Lizenz

Sie können eine kostenlose temporäre Lizenz erhalten, um die API ohne die Evaluierungseinschränkungen zu verwenden.

Fazit

Abschließend haben Sie gelernt, wie man mit Java Wörter in einem Dokument zählt. Außerdem haben wir besprochen, wie wir die Anzahl der Wortvorkommen für jedes im Dokument verwendete Wort erhalten können. Versuchen Sie, Ihre Online-Wortzähler-Java-Anwendung zu entwickeln. Weitere Einzelheiten und Informationen zur API finden Sie in der Dokumentation. Bei Fragen kontaktieren Sie uns über das Forum.

Siehe auch