WhatsApp und SMS: Wenn die Autokorrektur die Haare „tötet“

Berlin. Wer bei WhatsApp oder bei iMessage tippt, sieht fast täglich peinliche Tippfehler von Freunden. Google und Co. arbeiten an Lösungen.

Wenn man per Kurznachricht noch schnell „Gute Nacho“ wünscht oder am 24.12. einen „Frohe Weinberge“-Gruß an das gesamte Adressbuch schickt, dann hatte vermutlich die Autokorrektur ihre Finger im Spiel. Wie die Texterkennung funktioniert, wie sie sich in den vergangenen 20 Jahren weiterentwickelt hat – und warum sie trotzdem immer mal wieder danebenliegt.

Alles begann mit Nokias Kult-Handy 3210. Es führte in Deutschland erstmals die Texterkennung T9 ein. T9 steht für „Text on 9 Keys“ (Text auf neun Tasten). Es stellte eine erhebliche Verbesserung dar: Zuvor war das Versenden von SMS zwar schon beliebt, aber auch sehr mühsam gewesen.

Auf den Handys waren den Zahlentasten von zwei bis neun jeweils drei oder vier Buchstaben zugeordnet: „a“, „b“ und „c“ der zwei, „d“, „e“ und „f“ der drei und so weiter. Die einzelnen Buchstaben wählte man dann durch schnelles, mehrfaches Drücken aus. Das Wort „Hallo“ musste also in die Zahlenfolge 44-2-555-555-666 übersetzt werden, auch kurze Texte wurden so zur argen Belastungsprobe für Daumen und Nerven.

T9-Erfinder scannten Tausende Webseiten, Zeitungen und Zeitschriften

Mit T9 musste jede Zahlentaste nur noch einmal gedrückt werden – egal, welchen der zugeordneten Buchstaben man meinte. 4-2-5-5-6 führte dann zu dem Ergebnis „Hallo“, obwohl diese Ziffernfolge genauso auch für „gajjm“ oder auch „hcllm“ stehen könnte. Tegic Communications, die Firma hinter T9, löste dieses Problem durch spezifische Wörterlisten: Nach der Auswertung Tausender Textseiten auf Webseiten, in Chats sowie Zeitungen und Zeitschriften in der entsprechenden Sprache verknüpfte das Unternehmen die jeweiligen Ziffernfolgen mit Begriffen aus der Alltagssprache.

Sie wurden auch nach Häufigkeit gewichtet: Kamen bei einer bestimmten Zahlenkombination mehrere Wörter infrage, schlug T9 zuerst das gebräuchlichste vor. Dass das nicht immer hilfreich ist, zeigt einer der wohl meistzitierten SMS-Vertipper: „Wir sind endlich Papa und Mama! Um 15:21 Uhr kam der kleine Nazi zur Welt.“ Gemeint war natürlich „Maxi“, wie die stolzen Eltern schnell nachschoben.

Apples iPhone veränderte das Kommunikationsverhalten

2007 brachte die Vorstellung des iPhones den Siegeszug der Smartphones. Dort wurden nun virtuelle Buchstaben auf den Bildschirmen malträtiert. Das Tippen ging zwar schneller – weniger Fehler machte man auf den winzigen Bildschirmtasten deshalb aber nicht. Das erste iPhone bot deshalb passende Wortvorschläge, andere Smartphone-Hersteller folgten mit ähnlichen Ansätzen.

Gboard von Google erkennt Pfade, die der Nutzer zeichnet, © Google | Google

Im Jahr 2010 kam dann „Swype“. Beim Eingabeverfahren der gleichnamigen Firma ziehen Nutzer ihren Finger von Buchstabe zu Buchstabe, ohne ihn dabei zwischendurch abzusetzen. Tatsächlich lässt sich auf diese Weise die durchschnittliche Schreibgeschwindigkeit deutlich steigern. Gleichzeitig wächst die Schwierigkeit für die Software, aus der Wischbahn das gemeinte Wort zu erkennen.

Wie viel Hightech heute auf virtuellen Tastaturen verwendet wird, zeigt das Beispiel von „Gboard“, der virtuellen Tastatur von Google. Sie erlaubt das Tippen oder Wischen von Text und ist auf etlichen Android-Geräten vorinstalliert, lässt sich aber auch auf iPhones nutzen.

Prinzipiell sei die Herausforderung für die Entwickler nach wie vor die gleiche, wie Daan van Esch, technischer Programmleiter bei „Gboard“, erklärt: „Selbst wenn man einzelne Buchstaben eintippt, ist es wahrscheinlich, dass man versehentlich auch mal benachbarte Tasten trifft, wir nennen das gern das ‚Fette Finger Syndrom‘.“ Die Software müsse deshalb in der Lage sein, mit diesen versehentlich getroffenen Tasten umzugehen. „Wenn jemand in Deutschland ‚Freznd‘ eintippt, dann meinte er vermutlich ‚Freund‘, nicht wahr?“

Menschen erkennen Tippfehler, Maschinen kaum

Für Menschen ist so ein Tippfehler ziemlich offensichtlich, für Maschinen nicht. Noch komplizierter werde es bei Wischgesten, erklärt Esch: „Viele Wörter haben sehr ähnliche Wischspuren. Wir setzen deshalb auf maschinelle Intelligenz, um zu erkennen, welches Wort ein Nutzer gerade eintippt oder wischt.“

Google-Ingenieure verwenden dabei „Rekurrente Neuronale Netzwerke“. Sie werden auf leistungsfähigen Google-Servern mit zahllosen anonymisierten Eingabedaten gefüttert. Die Systeme werden dabei auf die richtige Erkennung trainiert, man spricht hier von „Deep Learning“. Am Ende der Berechnungen stehen dann handliche Erkennungsmodelle, die sich auch auf Smartphones einsetzen lassen.

Hat die Software ermittelt, welche Buchstaben vermutlich gerade eingegeben wurden, wird anschließend ermittelt, ob es solch ein Wort überhaupt gibt und wie wahrscheinlich es an dieser Stelle ist, sagt Google-Ingenieur Esch. „Wir benutzen für jede Sprache ein maßgeschneidertes Wörterbuch.“ Das sei nicht nur nach Worthäufigkeit sortiert. Es speichere zu den Wörtern auch den jeweiligen Kontext. „Wenn man schon ‚Wie geht es‘ eingetippt hat, ist recht wahrscheinlich, dass dann das Wort ‚dir‘ folgt“, erklärt Esch – auch wenn man eigentlich die Buchstaben für das Wort ‚die‘ erwischt habe.

Auch „Gboard“ und „Swype“ werden nie fehlerfrei sein

Die Wörterbücher selbst werden zunächst durch umfangreiche automatisierte Websuchen zusammengestellt und dann von Linguisten und Muttersprachlern auf Fehler untersucht, in Form gebracht und laufend aktualisiert. Zudem müssten auch die jeweiligen Eigenheiten der Sprache mit in Betracht gezogen werden, sagt Esch.

„Im Deutschen werden Wörter oft aus mehreren Bestandteilen kombiniert, etwa ‚Fußballspieler‘. So kann man an jede beliebige Sportart ein ‚-spieler‘ anhängen. Wir können unmöglich alle denkbaren Varianten in einem Wörterbuch festhalten.“ Deshalb habe man Algorithmen entwickelt, die verstehen, wie zusammengesetzte Wörter im Deutschen funktionieren. So könne „Gboard“ diese erkennen, obwohl sie nicht gespeichert sind.

Ist in der Google-Tastatur-Einstellung die Option zur Personalisierung aktiviert, lerne Gboard zudem nicht nur neue Begriffe, etwa Eigennamen, sondern passe das gesamte Erkennungsmodell an den Schreiber und dessen individuelle Wortwahl an.

Google ist zu Recht stolz auf die Fortschritte – mit den Anfängen von T9 hat Gboard nichts mehr zu tun. Doch trotz aller Fortschritte werden „Gboard“ und Co. eines wohl aber nie schaffen: gänzlich fehlerfrei zu sein.