Adelung, Hochdeutsches Wörterbuch
Zu den Daten
Hier finden Sie den vollständigen Text des "Grammatisch-kritischen Wörterbuchs der Hochdeutschen Mundart, mit beständiger Vergleichung der übrigen Mundarten, besonders aber der Oberdeutschen" von Johann Christoph Adelung. Er entspricht der Ausgabe von 1811, die vom Münchener Digitalisierungszentrum der Bayerischen Staatsbibliothek eingescannt und mit einem Texterkennungsprogramm in Textform überführt wurde. Text und Bilder hat die sogenannte Digitale Bibliothek auf Ihrem Web-Server verfügbar gemacht, jedoch nicht als fortlaufenden Text. Das ist die Lücke, die diese Datei füllen soll.
Wichtige Hinweise zu dieser Version:
- Es sind eventuell bei der Konvertierung Fehler passiert.
- Eine Unzulänglichkeit des Originals wurde übernommen, wirkt sich aber schlimmer aus, nämlich daß nichtlateinischer Text nicht zu lesen ist (und hier keine Bilder vorhanden sind).
- Die Beiträge des D. W. Soltau fehlen.
- Anzahl der Stichworte ist etwa 56.200.
- Zeilenumbrüche sind im Unix-Format.
- Zeichensatz ist ISO-8859-1 (Latin 1).
Das Digitalisierungszentrum garantiert nicht die hundertprozentige Korrektheit der Schrifterkennung. De facto sind dabei und bei der Verschlagwortung allerhand Fehler passiert; insbesondere
- ist die Datenbank mit Einträgen vom Typ "Der Tieger, oder Tiger" nicht zurechtgekommen und macht daraus zwei Artikel,
- sind Ziffern bei mehreren Einträgen zu einem Stichwort des öfteren auf die vorige Zeile und damit ans Ende eines ganz anderen Artikels gerutscht.
Wo sie mir aufgefallen sind, habe ich die Fehler korrigiert.
Der Text unterliegt keinem urheberrechtlichen Schutz, da dieser nach deutschem Recht nur Werken gewährt wird, deren Urheber noch lebt oder höchstens seit 70 Jahren tot ist.
Herunterladen: adelung-1201.zip (8,9 MB).
Format
Die einzelnen Wörterbuch-Artikel sind durch eine Zeile getrennt, die nur das Zeichen % enthält. Die erste Zeile jedes Artikels enthält die Stichworte, durch Kommas getrennt. Dies gehört nicht zum Originaltext, ist aber erforderlich, um halbwegs zuverlässig einen Index erzeugen zu können. Wenn diese Stichwort-Zeilen stören, können sie durch ein simples sed-Skript entfernt werden:
sed "/^%$/{n;d;}" < faelschung > original
Hintergrund: Die Stichwörter aus dem Originaltext sind leider nicht hundertprozentig maschinenlesbar und müssen daher zum Teil von Hand nachgebessert werden. Es erschien mir am einfachsten, dies durch solche Zeilen im Volltext zu machen.
Die Index-Tools
Damit man in dem Wörterbuch, das immerhin knapp 560.000 Zeilen hat,
schnell ein Wort nachschlagen kann, benötigt man einen Index. Hierfür
stehen zwei Programme zur Verfügung, mki
zum Erzeugen des Index
und lookup
zum Nachschlagen. mki kann auch den gesamten Text
indizieren, d. h. nicht nur die Stichwörter. Die Index-Datei ist nicht
ganz klein; der Vollindex ist bei mir gut 11 MB groß und mki hat auf
meinem Athlon 900 fast 6 Minuten zum Erzeugen gebraucht.
Die Programme sind in Pascal geschrieben und sollten sich mit einem gängigen Übersetzer (FPC (getestet), TMT Pascal, Delphi) übersetzen lassen. Die Quelltexte zusammen mit kurzer Dokumentation können hier heruntergeladen werden:
Fertig übersetzte Versionen für Windows und Linux:
bsdict-1-win.zip
bsdict-1-linux.tar.gz
Schnellanleitung
Kopieren Sie das Adelung-Wörterbuch in ein Verzeichnis. Achten Sie darauf, daß der Dateiname
dict.txt
lautet. Sorgen Sie dafür, daß die ausführbaren Dateien der Index-Tools im Pfad sind; im Zweifel kopieren Sie sie mit in das Verzeichnis.Rufen Sie auf:
mki
Nach einiger Zeit ist die Indizierung hoffentlich fertig. Rufen Sie zum Test auf:
lookup wörterbuch
Für weitere Informationen lesen Sie bitte mki.txt und lookup.txt.