Hermetic Word (and Phrase) Frequency Counter
Advanced Version

Translated from the English by Daniel Frisano
Hermetic Systems

Programma personalizzabile per il conteggio di parole ed espressioni su più file in Windows

Download of this program has been temporarily suspended

Hermetic Word Frequency Counter Advanced Version analizza uno o più file DOCX da MS Word o file di testo o simil-testo — compresi file in codifica HTML e XML via ANSI o UTF-8 — e conta il numero di occorrenze delle varie parole in aggregato su tutti i file (facoltativamente ignorando parole comuni come the e this). È quindi anche un programma multi-file per la ricerca di parole. Si può specificare esattamente che cosa si intende per 'parola' (ad es. parole con o senza trattini o numeri). Le parole ed espressioni possono essere visualizzate in ordine alfabetico o di frequenza, con indicazione dell'ordine di importanza e della frequenza per ogni parola.

Il software è disponibile in due versioni: Hermetic Word Frequency Counter (WFC) e Hermetic Word Frequency Counter Advanced Version (WFCA). Si tratta di due programmi separati. La differenza principale è che WFC conta le parole solo in singoli file DOCX o di testo o simil-testo (compresi file HTML e XML), mentre WFCA conta parole ed espressioni in più file (in più cartelle) in una sola operazione. Per chi desidera contare parole solo in un file alla volta, WFC è la soluzione giusta (la pagina di WFC è disponibile a questo link.) Se si lavora su parecchi file, o si desidera contare espressioni, o sono necessarie altre opzioni e funzionalità per parole ed espressioni, allora servirà WFCA (vedere oltre).


Anche se teoricamente non ci sono limiti alla dimensione di un file in input o al numero di parole che contiene, nella pratica (nel senso del tempo di elaborazione necessario) il limite è attorno a 10 Mb su file di testo (e file tipo testo come XML e HTML). Esiste un limite attorno a 10 Mb anche sulla quantità di testo in un file DOCX da MS Word (anche se un file DOCX potrà essere più voluminoso se contiene molte immagini). Per un file DOCX si contano solo le parole presenti nel corpo del documento, omettendo note a piè di pagina e note di chiusura.

La versione avanzata (Advanced Version) offre le stesse funzionalità della versione di base, compreso il supporto per testo in codifica UTF-8. Nel paragrafo che segue si illustrano in dettaglio le funzionalità aggiuntive della versione avanzata: le principali solo la capacità di contare parole in più file, contare espressioni multi-parola oltre a singole parole, e contare le occorrenze di una parola o espressione che corrisponde a un modello specificato (per cui questa versione rappresenta anche un programma di ricerca su più file). Si dovrà quindi leggere il manuale d'uso per la versione di base in unione con questa pagina.

Il software conta parole ed espressioni in file DOCX di MS Word (ma non in file DOC di Word) e in file di testo o simil-testo (compresi file HTML e XML). Non opera direttamente su file binari (oltre ai file DOCX) come i PDF, che potranno essere elaborati se convertiti in formato DOCX o in file di testo (vedere File analizzabili nel manuale d'uso per la versione di base).



Per aprire un singolo file per contare parole o espressioni, selezionare l'opzione Single File cliccando sul pulsante Single File. Per contare parole o espressioni in più file in una particolare cartella selezionare l'opzione Folder cliccando sul pulsante Folder. Dopo avere impostato i parametri operativi cliccare sul pulsante Count appropriato. Qui sotto si riporta una schermata che evidenzia i risultati del conteggio di parole in tutti i file .htm in una cartella e sue sottocartelle (senza distinzione tra maiuscole e minuscole):


Se la casella "Disable" (accanto al campo "Output file") è spuntata, l'output viene presentato solo nella finestra stessa e non salvato su file.

Cliccare qui per una schermata che evidenzia l'output ottenuto calcolando frequenze relative (anziché frequenze assolute).

Ecco una schermata con il risultato del conteggio di tutte le espressioni contenenti da 4 a 8 parole in un file DOCX di 21,46 Kb di dimensione contenente 13,70 Kb di testo effettivo:

Phrases of 4 to 8 words

"Filesize" è la dimensione del file DOCX, mentre "Text" è la dimensione del testo all'interno del file. Con un file DOCX di grandi dimensioni il primo valore potrebbe essere minore del secondo perché il testo all'interno di un file DOCX è compresso.


Questo software si presta a molti usi diversi. Un esempio è la ricerca di parole ed espressioni nelle notizie. Si possono scaricare varie pagine dal web e poi eseguire una ricerca per termini come “economic recovery”, “chinese stocks”, “air traffic controller strike” e “IMF payment”. Le ricerche possono restituire i nomi dei file nei quali compaiono le espressioni specificate, come spiegato nella pagina Report Formats sul formato dei rapporti (vedere anche Sorting Documents by the Number of Occurrences of a Word or Phrase per l'ordinamento dei documenti secondo il numero di occorrenze). Naturalmente esistono molti altri possibili usi per questo software.


Differenze rispetto alla Basic Version

Qui di seguito si elencano alcune (ma non tutte) le funzionalità della Advanced Version (WFCA) che non sono presenti nella versione di base (WFC).

La capacità di:

E inoltre, novità nella Versione 26.07, la possibilità di filtrare le espressioni trovate in modo da visualizzare solo espressioni contenenti parole specificate.

La maggior parte degli utenti sfrutterà solo alcune di queste possibilità, per cui l'utente dovrà consultare solo le parti corrispondenti del manuale d'uso.


Il pannello 'Settings'

Questo è l'aspetto del pannello 'Settings' (Impostazioni) nella versione avanzata:

Word Frequency Counter Advanced settings window

Le caselle Convert plural English words to singular (Converti parole inglesi plurali in singolari) e Ignore words with fewer than (or more than) N occurrences (Ignora parole con meno di (o più di) N occorrenze) sono attive solo quando si contano parole, e non quando si contano espressioni.

La selezione di default per Phrase must not go beyond ... (Le espressioni si fermano a) è con tutte le caselle selezionate tranne 'comma' (virgola) e 'end of line' (fine riga). Se il documento consiste di espressioni separate da virgole allora si dovrà selezionare la casella per 'comma'. Un simile testo non dovrà essere mescolato con testi in cui un carattere di fine riga, punto o virgolette termina le espressioni.


Manuale utente per Hermetic Word Frequency Counter Advanced Version (in inglese)



Come accennato qui sopra, la versione avanzata offre tutte le funzionalità presenti in quella di base, per cui le sezioni seguenti del manuale utente per la Basic Version valgono anche per la Advanced Version.