Distant Reading – Wortliga

Das Tool «Wortliga» (https://wortliga.de/textanalyse/) macht eine differenzierte Textanalyse. Es wertet Texte nach folgenden Kriterien aus:

  • Lesbarkeit des Textes. Sie wird mit einer Ziffer ausgedrückt. Dabei ist ein Index zwischen 45 und 70 ideal. Unter 45 ist der Text zu schwierig und über 70 ist er zu banal.
  • Satzlänge. Sätze ab 26 Wörter werden vom Algorithmus als zu lang eingestuft. Das ist sicher kein ideales Kriterium, um übermässig lange Sätze zu eruieren.
  • Füllwörter: Das Tool zeigt Füllwörter an und veranlasst einen so, diese zu reduzieren.
  • Das Tool markiert Passagen, die dadurch gekennzeichnet sind.
  • Passiv-Sätze. Auch sie werden markiert. Verbunden mit der Aufforderung, sie in aktive umzuformulieren. In jedem Fall ist das sicher nicht sinnvoll.
  • Phrasen. Sie werden markiert.
  • Sätze im Sie werden markiert und sollten laut der Machern von Wortliga vermieden werden. Das ist eine eigensinnige Auffassung.
  • Abkürzungen. Es wird empfohlen sie zu meiden.

Viele Kriterien, welche z.B. für die Aufsatzproduktion wichtig sind, fehlen:

  • Orthographische und grammatikalische Korrektheit des Textes
  • Zeichensetzung
  • Stilfehler
  • usw.

Bei der Auswertung von Passagen aus dem «Amulett» von C. F. Meyer werden Lese-Index-Werte von 52 bis 69 angegeben. Rund ein Viertel aller Sätze taxiert das Tool als zu lang. Passiv-Sätze sind häufig, ebenso Füllwörter. Abkürzungen wurden keine ermittelt. Das Tool ist dazu geeignet, dem sprachlichen Gestaltungswillen eines Autors auf die Schliche zu kommen.

Dieser Beitrag entstand unter Mitwirkung der Klasse 5d der KS Reussbühl.

Distant reading – blablameter

Das sogenannte «Blablameter» (blablameter.de) ist ein Tool, welches von Bernd Wurm entwickelt wurde. Der Grund für dieses Projekt ist, dass Wurm sich über aufgeblasene Sprache und Worthülsengeflecht ärgert. Das Tool hat die Aufgabe, bei einem Text zu messen, wieviel «heisse Luft» drin ist (also unnötige Wörter, gestreckte Sätze und Ähnliches). Angegeben wird diese Messung dann mit dem «Bullshit-Index». Laut der Website liegt der Index bei hochwertigen journalistischen Texten zwischen 0.1 und 0.3. Die normale Spanne liegt zwischen 0 und 1. Es sind aber auch Werte über 1.0 möglich. Der genaue Algorithmus ist ein Geheimnis. Bekannt ist immerhin, dass Texte auf unterschiedliche sprachliche Merkmale hin getestet werden wie Nominalstil, das Verwenden von Phrasen und Weiteres.

Bei C. F. Meyers «Amulett» haben alle Kapitel einen «Bullshit-Index» zwischen 0.7 und 1.1 – das ist also kein Glanzresultat.

Man kann auch den Bullshit-Index von E-Mails, Aufsätzen und Wikipedia-Artikeln ermitteln lassen. Letztere erhalten deshalb einen sehr hohen Index (was als Hinweis für mindere Qualität gilt), weil sie stark vom Nominalstil geprägt sind.

Dieser Beitrag entstand unter Mitwirkung der Klasse 5d der KS Reussbühl.

Distant Reading – Textalyzer

«Textalyzer» zählt die Anzahl Sätze, die Anzahl Wörter und die Anzahl verschiedene Wörter in einem (literarischen) Text. Zudem berechnet es, wie auch andere ähnliche Tools, einen sogenannten Flesch-Index. Das ist eine Zahl zwischen eins und hundert, welche die Lesbarkeit und Verständlichkeit des Textes widerspiegeln soll. Ein Wert von 58 (ermittelt für das «Amulett» von C. F. Meyer) ist laut der Skala also auf dem Niveau einer Boulevardzeitung. Das erstaunt. Man müsste sich genauer mit dem Flesch-Index befassen.

Mit dem Tool Textalyser lässt sich z.B. bei einem literarischen Text die «Wortschatz-Dichte» für die einzelnen Kapitel ermitteln. Diese Grösse erhält man, wenn man die Anzahl der verschiedenen Wörter durch die Gesamt-Wörterzahl dividiert.

Im «Amulett» hat Meyer 5´000 verschiedene Wörter verwendet, bei einer Anzahl von insgesamt 18´000 Wörtern. Aus diesen Zahlen kann man eine Wortschatzdichte von 0.27 errechnen. Jedes 4. Wort kommt also nur einmal vor. Subjektiv wird da ein reicher Wortschatz verwendet.

Bei der Novelle «Angela Borgia», welche knapp 20 Jahre nach dem Amulett verfasst worden ist, beträgt die Wortschatzdichte 0.23 (ist also vergleichbar). Die Wortschatzdichte steigt also über die Jahre nicht automatisch, wie man aufgrund der wachsenden Erfahrung des Autors eigentlich erwarten würde.

Man kann mit Textalyzer auch Aussagen zum Wortschatz und damit zur Sprachmächtigkeit des Autors sagen. Goethes literarischer Wortschatz wird als höher als der von Meyer beziffert. Bei Shakespeares Werken hat man gar einen Wortschatz von 30’000 Wörtern ermittelt. Der Wortschatz eines 16-Jährigen beträgt ca. 15’000 Wörter.

Dieser Beitrag entstand unter Mitwirkung der Klasse 5d der KS Reussbühl.

Distant Reading – Wordcounter und Wortwolke

Distant Reading kann auch mit „Wordcounter“ umgesetzt werden. Die Webanwendung „wordcounter.com“ zeigt die Häufigkeit der verwendeten Wörter in einer absteigend sortierenden Liste. Text kann man einfach in einen Editor reinkopieren und auswerten lassen; bei einem literarischen Werk z.B. auch kapitelweise. Auf den ersten ca. 30 Rängen sind natürlich fast nur Füllwörter vertreten.

Achtung: Da zwischen Gross- und Kleinschreibung jedoch nicht unterschieden wird, können spezifische Aufgabenstellungen wie z.B. die Verwendung der höflichen Anrede „Sie“ (im Unterschied zum Personalpronomen „sie“) nicht bewältigt werden.

Bei der Auswertung von einzelnen Kapiteln fällt natürlich schnell ins Auge, welches die Hauptpersonen sind, da deren Namen am häufigsten genannt werden.

Auch mit dem Tool «Wortwolke» (wortwolke.de) kann man die Häufigkeit der Wörter in einem Text ermitteln; zusätzlich allerdings noch grafisch als Wortwolke darstellen lassen. Je häufiger ein Wort vorkommt, desto grösser ist es abgebildet. Dabei können Schriftart, Umriss, Farben und weiteres verändert werden. Füllwörter werden automatisch aussortiert, so dass nur semantisch wichtige Wörter gross dargestellt werden.

Dieser Beitrag entstand unter der Mitwirkung der Klasse 5d der KS Reussbühl.

Distant Reading – Anwendung von Google Ngram Viewer

Wenn im DE-Unterricht auch «distant reading» thematisiert werden soll, kann es eine sinnvolle Aufgabenstellung sein, ein literarisches Werk mit dem Ngram Viewer zu analysieren. Das Tool ermittelt die Häufigkeit der Verwendung des Wortes in den letzten Jahrhunderten. Dabei kommt eine Datenbank, die aus von in Google indizierten Büchern besteht, zur Anwendung. Mithilfe dieses Analyseprogrammes kann man von einzelnen Wörtern z.B. bestimmen, ob sie zur Schreibgegenwart (oder heute) eher Anachronismen oder aber Neologismen waren.

Wenn man mit einer Schulklasse das Werk «Das Amulett» von Conrad Ferdinand Meyer von 1873 mit dem Ngram Viewer untersucht, kann man verschiedene Resultate erzielen. Es ist möglich, Wörter aus demselben Sachbereich gleichzeitig in die Suchmaske zu füllen (z.B. Protestant, Katholik, Hugenotte, Calvinist). So erhält man für jedes Wort Angaben zur quantitativen Verwendung und kann sowohl gemeinsame Peaks oder Unterschiede deutlich erkennen. Bei der Interpretation der Peaks ist aber Vorsicht geboten. Ein erster auffälliger Peak ist beim Wort «catholic» (die englische Datenbasis ist zuverlässiger als die deutsche!) um das Jahr 1530 zu finden. Eine Begründung auf historischer Ebene wäre, dass dies den Beginn der Reformation in Deutschland mit dem Mitwirken von Martin Luther ausdrückt. Auch beim Peak um 1650 kann man eine Übereinstimmung von «catholic» und «protestant» historisch begründen: Es ist dies der Westfälische Friede von 1648. Als zweite Eben sollte aber die editorische gesehen werden. Peaks entstehen nur, wenn Schriften publiziert werden, die die gesuchten Wörter verzeichnen. Beim ersten Peak dürfte das Erscheinen von Schriften wie z.B. «Leviathan» von Thomas Hobbes mitverantwortlich sein. Der Ngram Viewer listet auch Verweise auf, die darüber Auskunft geben, wo die Zielwörter gefunden worden sind.

Dem Nachteil, dass die Datenbank mit deutschen Wörtern weniger lückenlos ist als die englische, kann man teils damit begegnen, dass man deutsche Wörter einfach übersetzt. Allerdings sind viele Begriffe von C. F. Meyer wie «Wams», «Schweizer», «Fryburger» und «Amulett» nicht so einfach ins Englische übertragbar. Hier stösst das Tool an seine Grenzen.

Dieser Beitrag entstand unter Mitwirkung der Klasse 5d der KS Reussbühl.