Scrivere non è solo un compito semplice per tutti. Si raccomanda di non ripetere più e più volte le stesse parole e frasi. Nel mondo dell’ottimizzazione odierno, spesso è necessario contare e quindi limitare la ripetizione di parole e frasi. Questo articolo illustra come contare a livello di codice le parole nei documenti e le occorrenze di ciascuna parola in Java.

API Java per contare parole e occorrenze

GroupDocs.Parser mostra la soluzione di analisi dei documenti per gli sviluppatori. Userò la sua API Java, ad esempio GroupDocs.Parser for Java per l’estrazione di testo dai documenti e il conteggio delle occorrenze. L’API consente anche l’estrazione di immagini e metadati per un ampio elenco di formati di documento supportati come documenti di elaborazione testi, presentazioni, fogli di calcolo, e-mail, database, eBook e molti altri.

Scarica e configura

Ottieni la libreria dalla sezione download. Per la tua applicazione Java basata su Maven, aggiungi semplicemente la seguente configurazione pom.xml. Successivamente, puoi eseguire gli esempi di questo articolo e molti altri esempi disponibili su GitHub. Per i dettagli, puoi visitare il Riferimento API.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
	<groupId>com.groupdocs</groupId>
	<artifactId>groupdocs-parser</artifactId>
	<version>22.3</version> 
</dependency>

Conta le parole nel documento usando Java

In primo luogo, è importante analizzare ed estrarre accuratamente l’intero contenuto del documento prima di contare le parole. Dopo l’estrazione del testo, possiamo facilmente suddividere il suo contenuto in una raccolta di parole e frasi. I passaggi seguenti mostrano come contare le parole all’interno del documento utilizzando Java.

  • Carica il documento usando la classe Parser.
  • Recupera il testo del documento caricato utilizzando TextReader.
  • Dividi il testo in parole usando i delimitatori.
  • Esegui il conteggio delle parole.

Il seguente codice sorgente Java conta il numero di parole in un documento.

// Conta le parole nel documento PDF usando Java
// Conta le parole univoche e le loro occorrenze nel documento PDF utilizzando Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	System.out.println("Length:" + words.length);
}

Conta le occorrenze di parole in Java

Allo stesso modo, possiamo contare quante volte una parola o una frase particolare o univoca è apparsa nel documento. Utilizzando questa funzione, puoi evitare la ripetizione di qualsiasi parola all’interno dell’articolo. I passaggi seguenti contano l’occorrenza di ogni parola all’interno del documento utilizzando Java.

  • Carica il documento usando la classe Parser.
  • Recupera il testo del documento caricato usando TextReader.
  • Leggi e dividi l’intero testo nella raccolta di parole.
  • Attraversa la raccolta di parole per contare l’aspetto di ogni parola.

Il seguente frammento di codice Java conta l’occorrenza di ogni parola univoca all’interno del documento.

// Conta le parole univoche e le loro occorrenze nel documento PDF utilizzando Java
try (Parser parser = new Parser("path/document.pdf")) {

	TextReader reader = parser.getText();
	String text = reader.readToEnd();

	String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
	Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

	int minWordLength = 2;
	for (String word : words) 
	{
		String uniqueWord = word.toLowerCase();
		if (uniqueWord.length() > minWordLength) 
		{
			if (wordCountTable.containsKey(uniqueWord))	{
				wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
						wordCountTable.get(uniqueWord).intValue() + 1);
			} else {
				wordCountTable.put(uniqueWord, 1);
			}

		}
	}
	wordCountTable.entrySet().forEach(entry -> {
		System.out.println(entry.getKey() + ": " + entry.getValue());
	});
}

Quello che segue è l’output del codice precedente:

lorem: 6
ipsum: 2
eleifend: 2
integer: 1
augue: 3
aliquet: 1
ligula: 1
dolor: 1
venenatis: 2
viverra: 1
amet: 2
urna: 1
senectus: 2
lectus: 2
volutpat: 1
massa: 1
blandit: 1
dapibus: 1
habitant: 2
pharetra: 2
...

Ottieni una licenza API gratuita

Puoi ottenere una licenza temporanea gratuita per utilizzare l’API senza i limiti di valutazione.

Conclusione

Per concludere, hai imparato a contare le parole in un documento usando Java. Inoltre, abbiamo discusso di come ottenere il conteggio delle occorrenze delle parole per ciascuna parola utilizzata nel documento. Prova a sviluppare la tua applicazione Java per il contatore di parole online. Per maggiori dettagli e informazioni sull’API, visita la documentazione. Per domande, contattaci tramite il forum.

Guarda anche