Image: Lasse red‘n, die BotsFERCHAUFERCHAUReservieren Anruf-Bots für uns bald Tische im Restaurant? | PhonlamaiPhoto
Ulfs* WeltKolumne

Lasse red‘n, die Bots

Lesezeit ca.: 3 Minuten
Ulf Froitzheim

Ulf J. Froitzheim

freier Journalist

Der Mensch verlernt das Telefonieren, bringt es aber den Computern bei. Die Sprechro­boter sagen sogar „ähh“ und „hmm“.

21. Juni 2018

Drücken Sie eigentlich immer die 1? Ich tu‘s selten. Wer die 1 drückt, stimmt schließlich einer privaten Form der Telekommu­ni­ka­ti­ons­über­wa­chung und Vorratsda­ten­spei­che­rung zu: „Dieses Gespräch kann zu Trainings­zwe­cken aufgezeichnet werden. Wenn Sie damit einverstanden sind, drücken Sie bitte die 1.“ Allerdings war ich bisher der Meinung, die Trainings­zwecke bestünden darin, Kundendienst­kräfte nachzuschulen, die ihre Arbeitszeit damit verplempern, mehr nette Worte als nötig mit den Kunden zu wechseln.

Umkehrschluss: Drücke ich die 2 oder gar nichts, wird mir die Mitarbei­terin dankbar und dementspre­chend hilfsbereit sein, denn dann „verzichten wir auf diese Maßnahme“ und lassen sie ergo auch nicht beim Chef antanzen.

Dass es sich bei den Trainings­ob­jekten um die menschli­chen Wesen handelte, mit denen ich sprach, war immer nur eine Vermutung von mir. Inzwischen bin ich mir sehr sicher, mich geirrt zu haben. Die mitgeschnit­tenen Gespräche der 1-Drücker waren in Wirklich­keit wohl Trainings­ma­te­rial für künstliche Intelligenzen. Und hinter den Lauschan­griffen steckt der Leviathan.

So schnell verstehen die Roboter nicht

Nein, ich meine natürlich nicht das aus Talmud und Bibel überlieferte Seeungeheuer, sondern seinen neuzeitli­chen Namensvetter Yaniv Leviathan. Der Mann heißt angeblich wirklich so und tüftelt als „Principal Engineer“ in der KI-Sparte von Google. Angst, mit Haut und Haar verschlungen zu werden, braucht man bei ihm zwar keine zu haben, aber er wird für Dinge bezahlt, die mir tatsächlich nicht ganz geheuer sind.

So hat sein Team das System „Duplex“ mit einer Unzahl von mitgeschnit­tenen Telefonaten zwischen echten Menschen gefüttert, bis dieses irgendwann in der Lage war, ein Restaurant anzurufen und mit menschli­cher Stimme einen Tisch zu reservieren – oder mit dem Friseur einen Termin zum Haareschneiden auszumachen. Auf Englisch klingt das schon so echt, dass die testweise Angerufenen gar nicht spannten, wie sie gefoppt wurden.

Der Anruf-Bot spricht nämlich nicht druckreif, sondern macht Sprechpausen und streut ab und zu ein „umm“ oder „hmm“ ein, auf Deutsch also „ähm“ oder „hm“. Das ist nicht nur ein psycholo­gi­scher Trick, damit wir darauf reinfallen. Der Cloud-Butler gewinnt dadurch auch Zeit, um die Datenpakete mit den Wirtinnen-Worten aufzuschnüren und diese richtig zu deuten: Bestätigt die Gastronomin mit „Sechs, haben Sie gesagt?“ die falsche Uhrzeit oder die korrekte Zahl der Plätze?

Mikrofon nur für den Notruf

So faszinie­rend es ist, dass Maschinen von uns lernen, so retro kommt mir die Sache vor. Ist es nicht so, dass wir mit unseren digitalen Allzweck-Hosentaschen­ge­räten nur noch im Notfall telefonieren? Wer etwas mitzuteilen hat, wischt doch mit beiden Daumen über das virtuelle Keyboard, peppt das Ganze mit bunten Emojis auf und wartet geduldig, bis sein Gegenüber reagiert.

Niemand unter 55 käme heute noch auf die Idee, sich freiwillig mittels gesprochener Worte mit seinen Mitmenschen zu verständigen. Deshalb ist es auch egal, dass wir ein Deep-Learning-System darauf abrichten könnten, täuschend gut unsere Stimme zu imitieren. Wer will denn, bitteschön, „His Master‘s Voice“ überhaupt noch hören? Im Zeitalter von Siri, Alexa und Cortana ist akustischer menschli­cher Output nur noch dazu nötig, Maschinen mit irgendeiner Aufgabe zu betrauen. Und damit der Kreis sich schließt, rufen künftig menschelnde Maschinen diejenigen Menschen an, die so alt sind, dass sie noch selbst ans Telefon gehen.

Lautloses App-Gewische in gefräßiger Stille

Um zu erkennen, wohin das führt, braucht man kein Prophet zu sein – zum automati­schen Anrufer, der mit dem autonomen Anrufbeant­worter Zwiesprache hält. Bald werden wir sagen: „Hey, Alexa, sag bitte Google Duplex, er soll in der Trattoria da Enzo für morgen Abend einen Tisch für acht Personen bestellen!“ Der redet kurz mit Enzos Cortana, und die richtet dann den Siris der ganzen Clique aus, wann und wo wir uns treffen, um bei Chianti und Calzone über alte Zeiten zu plaudern, ach nein, via Whatsapp über alte Zeiten zu chatten. Es wird eine gefräßige Stille herrschen. Aber nur der Älteste mit seinem Hörgerät wird sich daran erinnern, dass es mal Kneipen gab, in denen so das pralle Leben tobte, dass er sein eigenes Wort nicht verstand.