|
Hermetic Word (and Phrase) Frequency Counter
Advanced Version
Translated from the English by Daniel Frisano
|

|
Programma personalizzabile per il conteggio di parole ed espressioni su più file in Windows
This software is fully-functional and not time-limited. It runs on any version of Windows.
Click here for how to get this software by donation.
Hermetic Word Frequency Counter Advanced Version analizza uno o più file DOCX da MS Word o file di testo o simil-testo — compresi file in codifica HTML e XML via ANSI o UTF-8 — e conta il numero di occorrenze delle varie parole in aggregato su tutti i file (facoltativamente ignorando parole comuni come the e this).
È quindi anche un programma multi-file per la ricerca di parole.
Si può specificare esattamente che cosa si intende per 'parola' (ad es. parole con o senza trattini o numeri).
Le parole ed espressioni possono essere visualizzate in ordine alfabetico o di frequenza, con indicazione dell'ordine di importanza e della frequenza per ogni parola.
Il software è disponibile in due versioni: Hermetic Word Frequency Counter (WFC) e Hermetic Word Frequency Counter Advanced Version (WFCA). Si tratta di due programmi separati.
La differenza principale è che WFC conta le parole solo in singoli file DOCX o di testo o simil-testo (compresi file HTML e XML), mentre WFCA conta parole ed espressioni in più file (in più cartelle) in una sola operazione.
Per chi desidera contare parole solo in un file alla volta, WFC è la soluzione giusta
(la pagina di WFC è disponibile a questo link.)
Se si lavora su parecchi file, o si desidera contare espressioni, o sono necessarie altre opzioni e funzionalità per parole ed espressioni, allora servirà WFCA (vedere oltre).
Anche se teoricamente non ci sono limiti alla dimensione di un file in input o al numero di parole che contiene, nella pratica (nel senso del tempo di elaborazione necessario) il limite è attorno a 10 Mb su file di testo (e file tipo testo come XML e HTML). Esiste un limite attorno a 10 Mb anche sulla quantità di testo in un file DOCX da MS Word (anche se un file DOCX potrà essere più voluminoso se contiene molte immagini). Per un file DOCX si contano solo le parole presenti nel corpo del documento, omettendo note a piè di pagina e note di chiusura.
La versione avanzata (Advanced Version) offre le stesse funzionalità della versione di base, compreso il supporto per testo in codifica UTF-8. Nel paragrafo che segue si illustrano in dettaglio le funzionalità aggiuntive della versione avanzata: le principali solo la capacità di contare parole in più file, contare espressioni multi-parola oltre a singole parole, e contare le occorrenze di una parola o espressione che corrisponde a un modello specificato (per cui questa versione rappresenta anche un programma di ricerca su più file). Si dovrà quindi leggere il manuale d'uso per la versione di base in unione con questa pagina.
Il software conta parole ed espressioni in file DOCX di MS Word (ma non in file DOC di Word) e in file di testo o simil-testo (compresi file HTML e XML). Non opera direttamente su file binari (oltre ai file DOCX) come i PDF, che potranno essere elaborati se convertiti in formato DOCX o in file di testo (vedere File analizzabili nel manuale d'uso per la versione di base).
Per aprire un singolo file per contare parole o espressioni, selezionare l'opzione Single File cliccando sul pulsante Single File.
Per contare parole o espressioni in più file in una particolare cartella selezionare l'opzione Folder cliccando sul pulsante Folder. Dopo avere impostato i parametri operativi cliccare sul pulsante Count appropriato. Qui sotto si riporta una schermata che evidenzia i risultati del conteggio di parole in tutti i file .htm in una cartella e sue sottocartelle (senza distinzione tra maiuscole e minuscole):

Se la casella "Disable" (accanto al campo "Output file") è spuntata, l'output viene presentato solo nella finestra stessa e non salvato su file.
Cliccare qui per una schermata che evidenzia l'output ottenuto calcolando frequenze relative (anziché frequenze assolute).
Ecco una schermata con il risultato del conteggio di tutte le espressioni contenenti da 4 a 8 parole in un file DOCX di 21,46 Kb di dimensione contenente 13,70 Kb di testo effettivo:
"Filesize" è la dimensione del file DOCX, mentre "Text" è la dimensione del testo all'interno del file.
Con un file DOCX di grandi dimensioni il primo valore potrebbe essere minore del secondo perché il testo all'interno di un file DOCX è compresso.
Questo software si presta a molti usi diversi. Un esempio è la ricerca di parole ed espressioni nelle notizie.
Si possono scaricare varie pagine dal web e poi eseguire una ricerca per termini come “economic recovery”, “chinese stocks”, “air traffic controller strike” e “IMF payment”. Le ricerche possono restituire i nomi dei file nei quali compaiono le espressioni specificate, come spiegato nella pagina Report Formats sul formato dei rapporti (vedere anche Sorting Documents by the Number of Occurrences of a Word or Phrase per l'ordinamento dei documenti secondo il numero di occorrenze).
Naturalmente esistono molti altri possibili usi per questo software.
Differenze rispetto alla Basic Version
Qui di seguito si elencano alcune (ma non tutte) le funzionalità della Advanced Version (WFCA) che non sono presenti nella versione di base (WFC).
La capacità di:
- contare non solo tutte le parole in un file ma anche tutte le espressioni (entro limiti specificati di lunghezza delle espressioni).
- analizzare non solo un singolo file ma tutti i file in una cartella, e facoltativamente in tutte le sue sottocartelle, e restituire un singolo rapporto sulle frequenze delle parole ed espressioni in tutti i file esaminati.
- specificare non solo un elenco di parole da ignorare (come le parole più comuni in una lingua naturale) ma anche un elenco di parole ed espressioni che si intendono contare (o cercare).
- contare parole o espressioni corrispondenti a un dato modello.
- ignorare parole corrispondenti a un dato modello.
- visualizzare la frequenza relativa di occorrenza, oltre alla frequenza assoluta.
- per ogni parola o espressione trovata durante la scansione di più file, visualizzare i file in cui compare, e per quante volte.
- ordinare parole o espressioni in base al numero di file in un gruppo di file in cui quelle parole o espressioni sono presenti.
- includere o escludere file di determinati tipi.
- generare un file leggibile da Excel contenente una tabella di frequenze di parole ed espressioni in funzione dei file in cui compaiono.
E inoltre, novità nella Versione 26.07, la possibilità di filtrare le espressioni trovate in modo da visualizzare solo espressioni contenenti parole specificate.
La maggior parte degli utenti sfrutterà solo alcune di queste possibilità, per cui l'utente dovrà consultare solo le parti corrispondenti del manuale d'uso.
Il pannello 'Settings'
Questo è l'aspetto del pannello 'Settings' (Impostazioni) nella versione avanzata:

Le caselle Convert plural English words to singular (Converti parole inglesi plurali in singolari) e Ignore words with fewer than (or more than) N occurrences (Ignora parole con meno di (o più di) N occorrenze) sono attive solo quando si contano parole, e non quando si contano espressioni.
La selezione di default per Phrase must not go beyond ... (Le espressioni si fermano a) è con tutte le caselle selezionate tranne 'comma' (virgola) e 'end of line' (fine riga).
Se il documento consiste di espressioni separate da virgole allora si dovrà selezionare la casella per 'comma'.
Un simile testo non dovrà essere mescolato con testi in cui un carattere di fine riga, punto o virgolette termina le espressioni.
Manuale utente per Hermetic Word Frequency Counter Advanced Version (in inglese)
Come accennato qui sopra, la versione avanzata offre tutte le funzionalità presenti in quella di base, per cui le sezioni seguenti del manuale utente per la Basic Version valgono anche per la Advanced Version.