Schrijven is niet zomaar een taak voor iedereen. Het wordt aanbevolen om niet steeds dezelfde woorden en zinnen te herhalen. In de wereld van optimalisatie van vandaag moet u vaak de herhaling van woorden en zinsdelen tellen en vervolgens beperken. In dit artikel wordt besproken hoe woorden in documenten programmatisch kunnen worden geteld en hoe elk woord in Java voorkomt.

Java API om woorden en voorvallen te tellen

GroupDocs.Parser toont de oplossing voor het parseren van documenten voor ontwikkelaars. Ik zal de Java API, dwz GroupDocs.Parser for Java, gebruiken voor het extraheren van tekst uit documenten en het tellen van gebeurtenissen. De API maakt ook de extractie van afbeeldingen en metadata mogelijk voor een grote lijst van ondersteunde documentindelingen zoals tekstverwerkingsdocumenten, presentaties, spreadsheets, e-mails, databases, eBooks en vele andere.

Downloaden en configureren

Haal de bibliotheek op via de downloadsectie. Voeg voor uw op Maven gebaseerde Java-toepassing de volgende pom.xml-configuratie toe. Hierna kun je de voorbeelden van dit artikel uitvoeren, en er zijn nog veel meer voorbeelden beschikbaar op GitHub. Voor meer informatie kunt u de API-referentie bezoeken.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Tel woorden in document met behulp van Java

Ten eerste is het belangrijk om de volledige inhoud van het document nauwkeurig te ontleden en te extraheren voordat u de woorden telt. Na het extraheren van de tekst kunnen we de inhoud eenvoudig opsplitsen in een verzameling woorden en zinnen. De volgende stappen laten zien hoe u de woorden in het document kunt tellen met Java.

  • Laad het document met behulp van de klasse Parser.
  • Haal de tekst van het geladen document op met TextReader.
  • Splits de tekst op in woorden met behulp van scheidingstekens.
  • Voer woordentelling uit.

De volgende Java-broncode telt het aantal woorden in een document.

// Tel woorden in PDF-document met behulp van Java
// Tel unieke woorden en hun voorkomen in een PDF-document met behulp van Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

Tel het voorkomen van woorden in Java

Op dezelfde manier kunnen we tellen hoe vaak een bepaald of uniek woord of een woordgroep in het document voorkomt. Door deze functie te gebruiken, kunt u voorkomen dat elk woord in het artikel wordt herhaald. De volgende stappen tellen het voorkomen van elk woord in het document met behulp van Java.

  • Laad het document met behulp van de klasse Parser.
  • Haal de tekst van het geladen document op met TextReader.
  • Lees en splits de hele tekst op in woordenverzameling.
  • Doorloop de woordenverzameling om het uiterlijk van elk woord te tellen.

Het volgende Java-codefragment telt het voorkomen van elk uniek woord in het document.

// Tel unieke woorden en hun voorkomen in een PDF-document met behulp van Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry ->{
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

Het volgende is de uitvoer van de bovenstaande code:

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

Ontvang een gratis API-licentie

U kunt een gratis tijdelijke licentie krijgen om de API te gebruiken zonder de evaluatiebeperkingen.

Conclusie

Tot slot heb je geleerd hoe je woorden in een document kunt tellen met behulp van Java. Daarnaast hebben we besproken hoe we het aantal woordverschijningen kunnen krijgen voor elk woord dat in het document wordt gebruikt. Probeer uw online Java-toepassing voor het tellen van woorden te ontwikkelen. Ga voor meer informatie en meer informatie over de API naar de documentatie. Neem voor vragen contact met ons op via het forum.

Zie ook