Teddybären alles erzählen, ist okay. Digitalen Sprachassistenten alles erzählen, ist riskant, aber nahezu unausweichlich. Und das ist ein Problem. Ein Essay. VON ESTHER GÖRNEMANN
Wer einen Sprachassistenten in seine Wohnung einlädt, beginnt oft spielerisch mit Scherzfragen, seinen neuen digitalen Mitbewohner kennenzulernen. „Alexa, bin ich schön? Was hältst du von Siri? Hast du Hunger?“ Mit der Zeit lernen die Besitzer, routinierter mit dem Gerät umzugehen. Sie rufen gekonnt kurze Befehle in die sieben Mikrofone, nutzen die richtigen Worte, kennen die Namen aller wichtigen Skills und haben den Assistenten zum zentralen Kontrollknoten des smarten Heims ernannt. Der Nutzer hat dann entwickelt, was Psychologen ein mentales Modell nennen: ein ungefähres Verständnis dafür, wie dieser Agent funktioniert, und wie er zu bedienen ist.
Aus Forschungssicht wird es besonders interessant, wenn dieses mentale Modell plötzlich nicht mehr ausreicht, um das Verhalten des Assistenten zu erklären. Wenn Alexa scheinbar grundlos den Befehl verweigert, ein verbundenes Gerät oder einen Radiosender plötzlich nicht mehr findet, oder einfach partout nicht verstehen will. Nicht wenige Nutzer beginnen dann, sie zu beleidigen und zu beschimpfen, als säße in dem kleinen Zylinder ein Mensch, den man nur laut genug anschreien muss, damit er gefügig wird.
Das technische Verständnis spielt eine Rolle
So widersinnig dieses Verhalten auf den ersten Blick scheint, so natürlich ist es auch. Als Menschen besitzen wir ein reicheres Verständnis davon, wie Menschen „funktionieren“ als davon, wie ein Sprachassistent funktioniert. Wenn unser Erklärungsmodell der Maschine plötzlich nicht mehr ausreicht, suchen wir – intuitiv und unbewusst – menschliche Erklärungen für ihr Verhalten. Es überrascht kaum, dass gerade die Nutzer eine stärkere Tendenz haben, ihren Sprachassistenten zu vermenschlichen, die sich selbst nur ein geringes technisches Verständnis attestieren.
Auch wer in seinem Leben nur wenig soziale Kontakte hat, neigt eher dazu, Maschinen – oder auch Haustiere – zu vermenschlichen. Ist der Mensch einsam, dann kann er das Bedürfnis nach Nähe hilfsweise erfüllen, indem er mit einem Sprachassistenten, einem Roboter oder auch einem Haustier spricht und interagiert, als sei es ein Mensch. Vor allem aber sind es Kinder, die dazu neigen, eine enge soziale Verbundenheit zu Gegenständen aufzubauen. Die starke Bindung zum Lieblingskuscheltier äußert sich dann meist darin, dass dem Teddy ein eigenes Gefühlsleben und menschliche Empfindungen zugesprochen werden. Der wichtigste Auslöser für Vermenschlichung ist ein menschenähnliches Aussehen. Hier allerdings sind wir nicht wählerisch: Selbst Autoscheinwerfer werden instinktiv als Gesicht interpretiert und aktivieren bei der Betrachtung die gleichen Hirnareale, die für das Erkennen menschlicher Gesichter zuständig sind.
Der Teddy hat kein Gedächtnis
Was beim Scheinwerfer oder Teddy kein Problem ist, kann im Umgang mit digitalen Assistenten aber durchaus kritisch werden. Denn diese haben ein Gedächtnis. Und sie sind verbunden mit globalen Datennetzwerken, deren Fähigkeiten weitestgehend im Dunklen liegen.
Bei Sprachassistenten werden subtile Reize eingesetzt, die uns verleiten sollen, sie zu vermenschlichen. Dazu gehören eine menschliche Identität, verbale und non-verbale Reize. Alexas Identität drückt sich nicht nur in ihrem menschlichen Vornamen, sondern auch in ihrer weiblichen Stimme aus, die nicht selten in der Ich-Form zu ihrem Besitzer spricht. Sprachassistenten versuchen, mit uns menschliche Dialoge zu führen – wenn auch noch äußerst rudimentär und bislang nicht zufriedenstellend. Manche ihrer Antworten suggerieren Empathie, Humor, Interessen oder Meinungen. Geradezu absurd wird das, wenn Googles Duplex Technologie sich räuspert und mit „hmm“ und „ahm“ den menschlichen Sprachfluss imitiert.
Menschliches wird bewusst eingesetzt
All diese Schlüsselreize sind natürlich kein Zufallsprodukt, sie sind das Ergebnis akribisch geplanter und detailliert umgesetzter Entwicklungsprozesse. Menschliche Attribute werden ganz bewusst und gezielt eingesetzt, denn sie üben einen erheblichen Einfluss auf die Nutzer aus. Eine vermenschlichte Maschine ruft ähnliche Emotionen und soziale Interaktionsmuster hervor, wie ein Mensch. Kurz: Wir behandeln sie mehr wie einen Menschen und weniger wie eine Maschine.
Die Entwickler der digital vernetzten Technologie, mit der wir unseren Alltag teilen und kommunizieren, haben ein starkes Interesse daran, dass wir etwas Menschliches in ihrer Technik sehen. Menschliche Merkmale wecken unser Vertrauen.
Nutzer gehen leichter und schneller eine soziale Bindung mit einer vermenschlichten Maschine ein. Die Entwicklung einer vertrauensvollen zwischenmenschlichen Beziehung führt dazu, dass die Benutzer mehr Intimität zulassen und eher geneigt sind, persönliche Informationen zu teilen.
Sie fühlen Empathie, sprechen natürlicher, grüßen und verabschieden sich. Sie schätzen die Qualität von Serviceleistungen signifikant höher ein und beurteilen einen vermenschlichten Agenten als kompetenter, vertrauenswürdiger und überzeugender als einen Assistenten ohne menschliche Attribute.
Kinder sind besonders anfällig
Wieder sind diese Tendenzen bei Kindern, die mit Sprachassistenten interagieren, besonders stark ausgeprägt. Der Grund hierfür ist, dass Kinder schon früh über soziale Kompetenzen verfügen. Sie erlernen die Fähigkeit, Bewusstseinsvorgänge – beispielsweise Gefühle, Bedürfnisse und Absichten – in sich selbst und in anderen Menschen zu erkennen. Vergleichsweise gering ist jedoch ihre Erfahrung mit spezifischen Objekten. Mangels anderer Erklärungen neigen sie also dazu, menschliche Schemata auf diese Objekte anzuwenden. Für Eltern ergibt sich hieraus eine besondere Verantwortung: Kinder sind naiver und können nur schwer nachvollziehen, dass im Hinblick auf digitale Mitbewohner auch eine gewisse Vorsicht angebracht sein sollte.
Was sind aber konkret die Gefahren, die der Einzug vernetzter Assistenten in unseren Alltag mit sich bringt? Die unscheinbaren, kleinen Lautsprecher werden oft kaum noch bewusst wahrgenommen. Sie verschmelzen mit ihrer Umgebung, werden sanft und allmählich Teil des Automatismus unserer täglichen Routine. Recht bald verschwindet das Bewusstsein darüber, dass dieser Assistent kein abgeschlossenes System ist. Die gigantische Rechenleistung und die wachsende Datenmenge über jeden, dessen Stimme zufällig von Alexa aufgeschnappt wurde, bleiben verborgen.
Manchmal schalten sie sich ungebeten ein
Sprachassistenten sind so konzipiert, dass sie standardmäßig eingeschaltet sind und auf die Nennung des Signalwortes warten. Äußerlich sichtbar ist dieser eingeschaltete Zustand aber nicht. Dies ist im Umgang mit technischen Geräten eher ungewohnt, und so fällt uns die Wachsamkeit des Assistenten weniger auf.
Ist das ein Problem? Immerhin aktiviert sich der Sprachassistent ja offiziell nur, wenn das Signalwort genannt wird. Jeder Besitzer eines solchen Gerätes wird allerdings schon erlebt haben, dass Alexa oder Google Home aktiv werden, ohne dass ihr Name genannt wurde. Diese Missverständnisse sind nicht so selten, wie man annehmen sollte. Forscher verzeichneten binnen drei Wochen 33 zufällige Aufnahmen in einem Haushalt in dem das Signalwort zu keinem Zeitpunkt genannt wurde. Ausgelöst wurden sie durch den Fernseher oder unscheinbare Gespräche in der Familie. Auf ein Jahr hochgerechnet kann ein normaler Benutzer eines Sprachassistenten also mit rund 600 Aufnahmen rechnen, die ungefragt und oft unbemerkt in eine gewaltige Datenmaschinerie mit einfließen, in der sie ausgewertet und angereichert werden.
Was sind die Geschäftsmodelle der Anbieter?
Darüber, wie diese Daten genau weiterverarbeitet werden, ist nicht viel bekannt. Der offizielle Verwendungszweck, dem jeder Nutzer mit Akzeptieren der Datenschutzerklärung zustimmt, ist das „Verbessern der Services“. Spracherkennung und Sprachverstehen sind die elementaren Bestandteile der künstlichen Intelligenz, auf der Sprachassistenten aufbauen. Um diese Komponenten zu verbessern, muss die KI trainiert werden, indem Menschen die Auswertung stichprobenweise überprüfen. Aufgabe der Trainer ist, zu entscheiden ob die KI richtig erkannt hat, was der Nutzer gesagt und gemeint hat.
Bei aller Legitimität dieses Anliegens dürfen aber zwei Dinge nicht außer Acht gelassen werden: die Geschäftsmodelle der Anbieter und die Reichhaltigkeit von Sprachdaten.
Gerade die zwei größten Marktteilnehmer Amazon und Google haben ein massives Interesse daran, ihre Kunden besser kennenzulernen. Die personalisierte Anzeige relevanter Werbung und Produkte ist der Grundstein ihres Erfolges. Weil sich damit das Verhalten ihrer Nutzer wirksam beeinflussen lässt. Die gezielte Produkt- und Werbeplatzierung ist nur deshalb ein Milliardengeschäft, weil sie Personen erfolgreich manipuliert und dazu verleitet, ein gewünschtes Verhalten an den Tag zu legen. Je mehr man dabei über einen Nutzer weiß, je besser man ihn kennt, desto subtiler und differenzierter kann man ihn steuern.
Wie die Stimme klingt, lässt Rückschlüsse zu
Gerade die menschliche Sprache lässt erstaunliche Rückschlüsse auf einen Menschen zu. Die ganz individuelle Anatomie des Mundraums in Kombination mit der persönlichen Art zu sprechen macht die Stimme so individuell wie ein Fingerabdruck. Name oder Kundennummer sind vernachlässigbar, allein auf Basis unserer Sprache sind wir eindeutig identifizierbar.
Was darüber hinaus aus den Aufzeichnungen „herausgehört“ werden kann, gilt als Geschäftsgeheimnis. Unter Juristen und Datenschützern ist noch umstritten, ob ein Kunde nicht auch erfahren dürfen sollte, welche Schlüsse die Konzerne aus seinen Daten ziehen. Dies wurde bislang in der Auslegung der aktuellen Datenschutzgrundverordnung noch nicht abschließend festgestellt.
Einen flüchtigen Blick hinter die Kulissen der Datenmaschinerie geben uns Patentanmeldungen. So hat Amazon beispielsweise einen Algorithmus patentiert, der werberelevante Stichworte in der Sprache erkennen soll. Dazu gehören etwa Marken, Produkte, Aktivitäten und positive oder negative Indikatoren („lieben“, „hassen“, „gekauft“, „zurückgeschickt“). Auch wird versucht, zu erkennen, ob es der Benutzer selbst ist, der ein Hotel buchen will, oder womöglich eine andere identifizierbare Person. Diese unbändige Neugier lässt nichts Gutes vermuten.
Emotionen in Echtzeit auswerten – und ausnutzen
Noch weiter geht eine patentierte Technologie, die in Echtzeit Aussagen über die emotionale und gesundheitliche Verfassung des Nutzers treffen kann und Hintergrundgeräusche identifiziert. Sie erfasst zum Beispiel Schilddrüsenprobleme oder Erkältungssymptome und kann ein großes Spektrum an Emotionen in der Stimme wahrnehmen – von Zufriedenheit über Kummer und Stress bis hin zu Langeweile und Müdigkeit. Der kommerzielle Einsatz dieser Erkenntnisse wird im Patent ausführlich dargestellt: Drittunternehmen sollen ihre Zielgruppe anhand der verfügbaren Merkmale definieren können und in Echtzeit auf einen „Werbeslot“ bieten. Dieser könnte dann beispielsweise eine erkältete und müde junge Frau sein, die eine Vorliebe für Schokolade hat und deren Kind gerade im Hintergrund weint. Der gesunde Menschenverstand sagt uns, dass diese Frau gerade besonders schutzbedürftig ist. Amazon aber versteht, dass gerade sie, gerade jetzt, besonders einfach zu manipulieren ist und lässt Alexa fragen, ob sie vielleicht Schokolade bestellen soll.
Nicht alles was patentiert ist, wird umgesetzt. Noch spielt Alexa keine Werbung ab, und wir wissen nicht, ob tatsächlich schon flächendeckend Emotionen in Echtzeit ausgewertet werden. Allerdings gibt es Hinweise darauf, dass die in den Patenten erwähnten Daten zumindest teilweise schon erhoben werden. Einige der Whistleblower, die in jüngster Zeit an die Öffentlichkeit traten und erklärten, dass sie Sprachaufnahmen mithörten, gaben auch an, dass sie kontrollierten, ob der Algorithmus Hintergrundgeräusche und relevante Stichworte richtig erkannt hat.
Alexa ist keine Freundin
Die Daten, die unsere digital vernetzten Geräte über uns sammeln, verraten so viel über uns, dass KI herleiten kann, wer wir sind, was wir fühlen und was uns wichtig ist. Dieses Wissen wird bewusst und gezielt eingesetzt, um Nutzer zu manipulieren. Als Gesellschaft sollten wir ein Interesse daran haben, zu wissen, wer versucht unser Verhalten zu steuern und wie er dies anstellt. Wir haben außerdem eine Verantwortung für diejenigen, die besonders schutzbedürftig sind: Kinder, Menschen, die einsam sind, die Technologie nicht verstehen oder sich in einer Situation befinden, in der sie verletzbar sind. Wir sollten nicht zulassen, dass gerade sie zur Zielscheibe subtiler Manipulation und Verhaltenssteuerung werden.
In unserem menschlichen Bedürfnis nach Nähe machen wir selbst Objekte zu unseren Freunden. Im Falle von Alexa und Co. ist dies allerdings ein Freund, der uns unbemerkt genauestens beobachtet und sich dabei jedes Detail einprägt. Mit dem Ziel, uns irgendwann – in einem ganz anderen Kontext – dazu zu bringen, ihm Geld zu geben.
Esther Görnemann ist Wissenschaftlerin am Institut für Wirtschaftsinformatik und Gesellschaft der WU Wien. Im Rahmen des EU- Projekts Privacy & Us erforscht sie die Interaktion mit Technologie mit Fokus auf Sprachassistenten, Datenschutz und ethische Herausforderungen.
Dieser Beitrag wurde am 25.8.2019 in der Zeitung Tagesspiegel veröffentlicht.