Hermetic Word (and Phrase) Frequency Counter
|
|
Download of this program has been temporarily suspended
Hermetic Word Frequency Counter Advanced Version analizza uno o più file DOCX da MS Word o file di testo o simil-testo — compresi file in codifica HTML e XML via ANSI o UTF-8 — e conta il numero di occorrenze delle varie parole in aggregato su tutti i file (facoltativamente ignorando parole comuni come the e this). È quindi anche un programma multi-file per la ricerca di parole. Si può specificare esattamente che cosa si intende per 'parola' (ad es. parole con o senza trattini o numeri). Le parole ed espressioni possono essere visualizzate in ordine alfabetico o di frequenza, con indicazione dell'ordine di importanza e della frequenza per ogni parola.
Anche se teoricamente non ci sono limiti alla dimensione di un file in input o al numero di parole che contiene, nella pratica (nel senso del tempo di elaborazione necessario) il limite è attorno a 10 Mb su file di testo (e file tipo testo come XML e HTML). Esiste un limite attorno a 10 Mb anche sulla quantità di testo in un file DOCX da MS Word (anche se un file DOCX potrà essere più voluminoso se contiene molte immagini). Per un file DOCX si contano solo le parole presenti nel corpo del documento, omettendo note a piè di pagina e note di chiusura.
La versione avanzata (Advanced Version) offre le stesse funzionalità della versione di base, compreso il supporto per testo in codifica UTF-8. Nel paragrafo che segue si illustrano in dettaglio le funzionalità aggiuntive della versione avanzata: le principali solo la capacità di contare parole in più file, contare espressioni multi-parola oltre a singole parole, e contare le occorrenze di una parola o espressione che corrisponde a un modello specificato (per cui questa versione rappresenta anche un programma di ricerca su più file). Si dovrà quindi leggere il manuale d'uso per la versione di base in unione con questa pagina.
Il software conta parole ed espressioni in file DOCX di MS Word (ma non in file DOC di Word) e in file di testo o simil-testo (compresi file HTML e XML). Non opera direttamente su file binari (oltre ai file DOCX) come i PDF, che potranno essere elaborati se convertiti in formato DOCX o in file di testo (vedere File analizzabili nel manuale d'uso per la versione di base).
Cliccare qui per una schermata che evidenzia l'output ottenuto calcolando frequenze relative (anziché frequenze assolute).
Ecco una schermata con il risultato del conteggio di tutte le espressioni contenenti da 4 a 8 parole in un file DOCX di 21,46 Kb di dimensione contenente 13,70 Kb di testo effettivo:
Questo software si presta a molti usi diversi. Un esempio è la ricerca di parole ed espressioni nelle notizie. Si possono scaricare varie pagine dal web e poi eseguire una ricerca per termini come “economic recovery”, “chinese stocks”, “air traffic controller strike” e “IMF payment”. Le ricerche possono restituire i nomi dei file nei quali compaiono le espressioni specificate, come spiegato nella pagina Report Formats sul formato dei rapporti (vedere anche Sorting Documents by the Number of Occurrences of a Word or Phrase per l'ordinamento dei documenti secondo il numero di occorrenze). Naturalmente esistono molti altri possibili usi per questo software.
La capacità di:
E inoltre, novità nella Versione 26.07, la possibilità di filtrare le espressioni trovate in modo da visualizzare solo espressioni contenenti parole specificate.
La maggior parte degli utenti sfrutterà solo alcune di queste possibilità, per cui l'utente dovrà consultare solo le parti corrispondenti del manuale d'uso.
Le caselle Convert plural English words to singular (Converti parole inglesi plurali in singolari) e Ignore words with fewer than (or more than) N occurrences (Ignora parole con meno di (o più di) N occorrenze) sono attive solo quando si contano parole, e non quando si contano espressioni.
La selezione di default per Phrase must not go beyond ... (Le espressioni si fermano a) è con tutte le caselle selezionate tranne 'comma' (virgola) e 'end of line' (fine riga). Se il documento consiste di espressioni separate da virgole allora si dovrà selezionare la casella per 'comma'. Un simile testo non dovrà essere mescolato con testi in cui un carattere di fine riga, punto o virgolette termina le espressioni.