Hermetic Word Frequency Counter
Englische Version

Diese Software durchsucht eine Textdatei, eine Docx-Datei oder Text in der Zwischenablage und zählt wie oft verschiedene Worte auftreten (dabei können häufige oder weit verbreitete Worte wie zum Beispiel "das" optional ignoriert werden). Die  Worte, die gefunden werden, können alphabetisch oder nach Häufigkeit geordnet aufgelistet werden.


Hinweis: Dieses ist eine Übersetzung einer früheren Version des englischen Benutzerhandbuches für diese Software, daher beziehen sich die graphischen Darstellungen auf die englische Version. Zur Zeit gibt es keine deutsche Version der Software.


Der Begriff Wort bedeutet normalerweise ein Wort in einer natürlichen Sprache wie Deutsch oder Englisch, aber für diese Software wird eine erweiterte Bedeutung verwendet: Jede Folge von Zeichen, die sich aus Buchstaben einer europäischen Sprache zusammensetzt plus (optional) Bindestrich, nummerische Zeichen, Unterstrich, Semikolon, Punkt, Apostroph, @-Zeichen. Daher kann der Text nicht nur in einer anderen Sprache als Deutsch durchsucht werden, sondern auch in einer Computersprache wie C . Mit dieser Software kann man Worte zählen, die das @-Zeichen enthalten (wenn Sie z.B. daran interessiert sind Emailadressen zu finden).

Hier ist eine typischer Darstellung des Programms. Als Resultate werden die gefundenen Worthäufigkeiten aus einer HTML-Datei; dabei werden häufige Worte oder weit verbreitetete Worte wie "der" ignoriert. Die Anzeige ist nach Häufigkeit der Worte sortiert.



Durchsuchbare Dateien und Sprachunterstützung

Wenn Sie das Programm auf eine Eingabedatei anwenden, kann die Datei jede beliebige Kennung haben, aber (anders al Docx-dateien) sie muss vollständig aus Text bestehen, der mit UTF-8 oder der 8-bit Windows-1252 Kodierung (dies ist eine Obermenge von ISO 8859-1).

Die typische Eingangsdatei besteht aus Text einer natürlichen Sprache, aber nicht notwendig; sie kann aus Programmkode bestehen (z.B. eine C++ Quelldatei). Als Eingangsdatei funktioniert auch eine HTML-Datei, eine XML-Datei oder allgemeiner jede nicht-binäre Datei.

Sprachen, die mit 8-Bit unter Verwendung von Windows-1252 kodiert werden können, umfassen Deutsch, Französisch, Italienisch, Spanisch, Englisch, Dänisch, Norwegisch, Portugiesisch, Schwedisch und Finnisch. Sprachen, deren Zeichen zum größten Teil unter Verwendung von Windows-1252 kodierbar sind, schließen Holländisch und Ungarisch ein, aber nicht Türkisch, Polnisch, Tschechisch, Russisch, Griechisch oder jede nicht-europäische Sprache.

Dateien, die nicht darstellbare Zeichen enthalten, wie Dokumente, die mit Adobe Acrobat geschrieben wurde, können mit dieser Software nicht bearbeitet werden, wenn man die Datei direkt lesen würde. Bei Dateien dieser Art haben Sie zwei Optionen: (a) Speichern Sie die Datei als eine ANSI Datei ab, und wenden Sie dann diese Software an. (b) Oder öffnen Sie das Dokument, markieren Sie den Text und kopieren sie ihn in die Zwischenablage. Wählen Sie danach "Count words" und "Clipboard" (Zwischenablage) als Quelle. Dabei gibt es eine Obergrenze für die Anzahl der Zeichen im Text der Zwischenablage — 100 000. Daher muss für große Dateien die Option (a) gewählt werden.

Wenn "Clipboard" (Zwischenablage) als Quelle gewählt wurde, zählt das Programm die Wörter im Text der Zwischenablage, nicht die Wörter im Text des Textfensters. Anders ausgedrückt, das Programm zählt nicht Wörter im Textfenster, sondern nur die Wörter in einer spezifizierten Eingangsdatei oder Wörter in der Zwischenablage. Sie können Text in einem Textfenster zusammenstellen, aber um eine Wörterzählung zu machen, müssen sie den Text zuerst in die Zwischenablage kopieren. Das ist einer der Gründe dafür, dass es einen "Copy to clipboard" - Button gibt (der nur verfügbar ist, nachdem die Software aktiviert worden ist).

Mehr technisch gesprochen, wenn Sie dieses Programm auf eine Datei anwenden (anders al Docx-Dateien), dann muss diese Datei nur aus Zeichen mit Single-Byte-Werten im Bereich von 32 bis 255 bestehen, mit Ausnahme der folgenden Whitespace-Zeichen: Linefeed (Bytewert 10), Carriage Returns (13), Tabzeichen (9), Backspace(12) — abgesehen davon, dass 1% der Bytes (verschieden von Zerobytes) als "anomale Bytes" erlaubt sind, d.h. Bytes mit Werten kleiner als 32, die aber keinen Whitespace-Zeichen sind. Diese Ausnahme beruht auf den seltenen Fällen, in denen eine große Textdatei, aus dem einen oder anderen Grund, eine Anzahl von "anomalen Bytes" enthält (die das Programm nicht davon abhalten sollten, diese Datei als eine Textdatei zu behandeln).


Einstellung der Parameter

Das Konzept Zählung von Worten erscheint einfach, ist es aber nicht. Was ist ein Wort? Ist Double-Click ein Wort oder Zwei? Ist  don't ein Wort? Ist liege das gleiche Wort wie Liege? Möchten Sie alle Worte zählen? Einschließlich der der weit verbreiteten Worte wie das, mit und er? Dieses Programm ermöglicht Ihnen Ihre Operationen selbst zu definieren, so dass nur die Worte gezählt werden, an denen Sie interessiert sind. Und wie oben schon angemerkt, die Worte können auch, wenn Sie es wollen, Sonderzeichen enthalten, wie Bindestrich, Apostroph, usw.

Hier ist eine Darstellung des Programms, die anzeigt, wie Operationen der Software für den Benutzer angepasst werden können:

Wenn Sie eine Emailadresse als ein Wort behandeln wollen, dann überprüfen Sie die Felder auf @-Zeichen, Punkten, Klammern und Unterstrich. Wenn Sie eine URL suchen wollen, prüfen Sie auf Slash, Punkt, Bindestrich und Ziffer. (Achtung: Wenn ein Wort einen Forward Slash enthält, dann kann ein doppelter Forward Slash nicht als Markierung für den Anfang eines Kommentars verwendet werden. Die Software überprüft Konflikte dieser Art.)

Wenn Sie die Großschreibung in den Ergebnissen bewahren wollen (so dass z.B. Einführen separat von einführen gezählt wird), dann überprüfen Sie bitte das Kontrollkästchen 'Upper/lower case significant'.

Wenn Sie Wörter in einer Datei zählen, in der englischer und chinesischer Text gemischt auftreten (natürlich ziemlich unwahrscheinlich), dann überprüfen Sie das Kontrollkästchen "Allow only 7-bit ASCII characters" (so dass die chinesischen Zeichen ignoriert werden). Dies sollte auch für jede Datei gemacht werden, die Nicht-ASCII-Zeichen enthält, die sie ignorieren möchten.

Die auf dem Hauptschirm ausgewählten Parameter können jederzeit abgespeichert werden (durch Verwendung der Schaltfläche Save state auf dem Hauptschirm). So kann die gleiche Einstellung beim nächsten Programmlauf wieder hergestellt werden.

Sie können auch einen Satz von Parametern in eine Parameterdatei abspeichern (diese Datei muss den Anhang .wfc ) haben. Später können diese Parameter wieder geladen werden. Dies erlaubt ihnen verschiedene Parametereinstellungen in unterschiedlichen Dateien zu sichern (z.B. Text in verschiedenen Sprachen).

Ein Wort kann nicht mit einer Ziffer beginnen, einem Bindestrich, einem Apostroph oder Doppelpunkt, aber es kann mit einem Unterstrich anfangen (_).


Rang- und Häufigkeitsanzeige

Die "Rang" und "Häufigkeits-Werte" können in der Anzeige ein- oder ausgeschlossen werden.

Wenn die Ausgabedatei nur aus Worten besteht, ohne Rang und Häufigkeit, dann kann man dies entweder als eine Liste (ein Wort pro Zeile) oder als Reihe mit Komma getrennt erhalten. Dies erreicht man, indem die geeignete Auswahl im Drop-Down-Menü Display format markiert wird.


Nicht-Deutscher Text

Hermetic Word Frequency Counter kann auch mit anderen Sprachen als Deutsch angewendet werden, einschließlich Englisch, Französisch, Italienisch und Portugiesisch (faktisch in jeder Sprache mit Zeichen, die in WinLatin1 dargestellt sind, auch bekannt als Windows 1252). Hier sind Beispiele für die Ausgabe bei einem deutschen Text (die Worte sind alphabetisch geordnet) und bei einem französischen Text (Worte sind nach Häufigkeit geordnet):

German words French words

Die Option ein finales 's' auszulassen, wenn nicht vorher ein 's' auftaucht oder ein Vokal, wurde mit Absicht eingerichtet, um Singular und Plural von englische Hauptworten (z.B. 'dog' und 'dogs') zusammenzufassen. Diese Option ist auch hilfreich im Fall eines Genitivs in der deutschen Sprache, z.B. 'Bewußtsein' und 'Bewußtseins'. Aber diese Option könnte nicht überschaubare Konsequenzen haben. Daher könnte es das Beste sein, diese Option zunächst wegzulassen, wenn die Resultate nicht vermuten lassen, dass es doch besser wäre sie einzusetzen.


Um Gewöhnliche Worte zu ignorieren

Man kann dem Programm mitteilen, gewöhnliche oder weit verbreitete Worte zu ignorieren. Diese Worte sind in einer Datei Ihrer Wahl enthalten. Wenn diese Datei spezifiziert worden ist und Ignore common words in file im Programm angekreuzt ist, dann werden alle Worte, die in dieser Datei angegeben sind, nicht berücksichtigt.

Wenn nur wenige Worte ignoriert werden sollen, dann können sie in einem besonderen Textfeld Ignore these words angegeben werden, wie oben gezeigt.

Es sind sechs Dateien mitgeliefert, die weit verbreitete Worte enthalten, Englisch (cwds_en.txt), Deutsch (_de), Französich (_fr), Italienisch (_it), Spanisch (_es) and Portugiesisch (_pt). Sie sind erreichbar im Ordner, der die Programmdateien enthält (erzeugt bei der Installation des Programms). Man kann Worte hinzufügen oder wegnehmen, wie gewünscht. Die Worte müssen nicht in alphabetischer Reihenfolge oder in getrennten Zeilen vorliegen (die Datei darf nur aus Text bestehen).


Eingangsdatei Größe und Ausgabe in eine Datei

Es gibt keine Grenze für die Größe einer Eingangsdatei. Das Programm wurde mit Textdateien in einer Größenordnung von 2 Mbyte getestet, mit Dateien, die fast 100 000 unterschiedliche Worte enthielten. In diesen Fällen benötigt die Bearbeitung ein oder zwei Stunden. Daher gibt es einen Fortschrittsbalken:

Es gibt jedoch ein Limit für die Menge an Text, die in einem Ausgabefeld enthalten sein kann, entweder bei der Übertragung aus der Zwischenablage oder als Resultat bei der Auflistung der gefundenen Worte. Dies hindert jedoch Hermetic Word Frequency Counter nicht daran, mit größeren Dateien umzugehen. Zum Beispiel ist eine Datei auf Ihrem PC, die Sie unter dem Namen Win32api.txt abgelegt haben. Diese Datei besitzt ungefähr eine Größe von 652 KB und hat über 80 000 Eintragungen bei 11 000 unterschiedlichen Worten. Wenn das Programm diese Datei bearbeitet, ohne dass die Option Don't display words as found eingestellt ist, dann durchsucht das Programm die Datei, aber nicht alle gefundenen Worte werden ausgegeben. Ca. 2000 Worte werden in diesem Fall dargestellt, danach hört die Anzeige auf, um einen Speicherüberlauf zu vermeiden. Nach Bearbeitung der ganzen Datei werden die gefundenen Worte soweit aufgelistet, bis die Speicherkapazität des Ausgabefeldes erreicht wird. Wenn die Worte in alphabetischer Reihenfolge dargestellt sind, dann werden (im Fall von Win32api.txt) nur Worte angezeigt, die mit a, b, c oder d beginnen.

Um eine vollständige Liste der Worte in dieser Datei zu erhalten, müssen Sie eine Ausgabedatei angeben bevor der Zählprozess gestartet wird. In diesem Fall wird die komplette Liste in die Ausgabedatei geschrieben, bevor eine Liste im Ausgabefeld angegeben wird. Die angezeigte Liste wird bei den Worten aufhören, die mit dem Buchstaben d beginnen. Aber die gesamte Liste kann angeschaut werden, wenn man die Ausgabedatei mit einem Texteditor, wie z.B. Wordpad, öffnet.

Hermetic Word Frequency Counter wurde erfolgreich bei großen Dateien mit vielen unterschiedlichen Wörtern angewendet: In einer Datei von  4.12 MB mit 46 398 unterschiedlichen Worten, ebenso in einer Datei von  12.1 MB mit 61 979 verschiedenen Worten (und mit einer Gesamtzahl von 1 847 893 Eintragungen dieser Wörter).


Transfer der Resultate in eine Excel-Datei

Wie folgt kann die Ausgabe leicht in eine Excel-Tabelle übertragen werden: Wenn die Ausgabe noch nicht in eine Ausgabedatei geschrieben worden ist, dann kopieren Sie die Ausgabe in die Zwischenablage. Fügen Sie den Text in einen Texteditor ein, wie z.B. Notepad. Speichern Sie ihn danach als eine .txt-Datei ab. Laden Sie dieses Datei in Excel. Excel wird Spalten automatisch erkennen.

Wenn Sie eine Ausgabedatei spezifizieren, werden die Resultate in diese Datei geschrieben. In der Schaltfläche Settings können Sie festlegen, dass die Ausgabe mit Kommatrennung geschrieben werden soll, so dass die Datei von einem Statistikprogramm gelesen werden kann, dass keine, anders als Excel, fixierte Feldbreiten lesen kann.

Die maximale Zahl von Reihen in einer Excel-2003-Datei ist 65.536. So ist das eine Grenze auf der Zahl von Wörtern, die ins Excel-2003 geladen werden kann. Excel-2007 erlaubt eine Million Reihen.


Klicken Sie auf diesen Link zur Erweiterten Version dieser Software.



Demoversion: Eine Demoversion von Hermetic Word Frequency Counter kann von dieser Website zum Zweck der Evaluation der Software heruntergeladen werden. Klicken Sie auf den folgenden Link, um weitere Informationen zu erhalten.

Download Hermetic Word Frequency Counter ...


Preis und Bestellung: Eine Einzelbenutzerlizenz ist auf die Dauer von 3 Monaten, 1 Jahr oder ohne Frist verfügbar. Preise für jeden Typ der Lizenz werden beim Kauf einer Anwenderlizenz gegeben. Ein Aktivierungsschlüssel ist erforderlich, um die Probeversion dauerhaft voll funktionsfähig zu machen, und kann sofort nach (oder bald nachher) Ihrem Kauf erhalten werden.

Rückerstattung: Eine Rückerstattung wird sofort bis 30 Tage nach Kauf zur Verfügung gestellt, wenn die Software nicht zufrieden stellend durchführt.

Updates: Käufer einer Anwenderlizenz für diese Software sind berechtigt Updates für alle späteren Versionen kostenlos zu bekommen.

Upgrade Erweiterte Version: Kunden, die eine Anwenderlizenz für diese Software erworben haben, können eine Lizenz für die Hermetic Word Frequency Counter — Erweitertete Version erwerben. Zu zahlen sind $26.45, €23.45 or £19.95 (ohne MWSt). Um das Upgrade zu erwerben, sehen Sie bitte Upgrading to the Advanced Version.



Using Hermetic Word Frequency Counter with Large Files
and Importing the Output into Excel
Hermetic Systems Home Page