Der Materna Blog – wissen was los ist

Speak don’t touch – Warum Spracheingabe Touch ablösen könnte

1. Februar 2017

Die Interaktion der Benutzer mit Computern hat sich in den vergangenen Jahrzehnten immer wieder geändert. Nach der Bedienung mit Gesten und Maus, kommt, gerade im Consumer-Bereich, die Spracherkennung und Sprachsteuerung mit Assistenzsystemen immer mehr zum Einsatz.

Als vor zehn Jahren das erste iPhone von Apple vorgestellt wurde, war die Welt vor allem wegen dessen einfacher und intuitiver Bedienung über einen berührungsempfindlicheren Bildschirm begeistert. Vom Nachrichtenmagazin Time wurde das iPhone sogar zur „Erfindung des Jahres“, wenn nicht sogar des Jahrzehntes, gewählt.

Ein weiterer Meilenstein war das iPhone 4S, das noch von Steve Jobs selbst im Oktober 2011 vorgestellt wurde, und den Spracherkennungsassistent Siri enthielt. Die ersten Versuche, Spracherkennung aus den Forschungslaboren einem breiteren Publikum zur Verfügung zu stellen, gab es von IBM Anfang der 90er als Software für den PC. Fachsprache konnte schon länger in Text umgewandelt (speech to text) werden. Für die Alltagssprache wurde im Jahr 2002 Google Voice Search populär, um Suchanfragen per Sprache bei Google im Browser zu stellen. Zu dem Zeitpunkt waren Mikrofon und eine verbesserte Audiowiedergabe zwar noch kein Standard, aber schon weiter verbreitet.

Später integrierte Google die Sprachsteuerung auch in seine anderen Cloud-Dienste und in sein mobiles Android-Betriebssystem. Dadurch war es sowohl online als auch, wenn auch etwas eingeschränkt, offline möglich, Befehle abzusetzen, um Aktionen auszulösen oder Anwendungen zu steuern. Durch die zunehmende Vernetzung der Geräte ist auch die Spracherkennung erheblich besser geworden. Durch mehr Kontextbezug, einen größeren Sprachumfang und mehr künstliche Intelligenz in der Cloud wurde das Verständnis erheblich gesteigert.

Spracheingabe in Smart-Home-Geräten

Mit der Integration der Spracheingabe in Smart-Home-Geräte, wie den Echo-Lautsprecher mit eingebautem Mikrophone und Anbindung an den Alexa-Sprachdienst von Amazon, hält die Sprachsteuerung in Gebieten und Orten Einzug, die Smartphone und Internet bisher nicht erreichen. Inzwischen haben auch andere Elektronikanbieter die Alexa-Anbindung im Angebot und es gibt mit Google Home eine Alternative dazu. Der Clou ist jedoch, dass auf dem umgewandelten Text, Regeln angewandt werden und dass der Dialog in beide Richtungen geführt werden kann, um das Ergebnis zu verbessern. Erst durch einfache Programme, Skills (bei Alexa) oder Rezepte (bei IFTTT (If This Then That)), wird es möglich, solche Systeme als Alltagsassistenten zu verwenden.

Apple hat seinen ursprünglichen Vorsprung bei der Spracherkennung binnen kürzester Zeit verspielt. Während Apple nur sehr wenigen Entwicklern erlaubte, Funktionen für Siri anzubieten, öffneten sich Amazon und Google komplett. So ist es auch einfacher möglich, Chatbots zu erstellen, die in den Dialog mit dem Nutzer treten, um ihm beim Lösen von typischen Routinefragen zu helfen.

Da die Spracherkennung bisher keine Stimm- bzw. Sprechererkennung voraussetzt, kann letztendlich jeder, auch Unbefugte, bei eingeschalteten Mikrophon und Internet-Verbindung solche Geräte nutzen. Erst vor kurzem wurde durch eine Fernsehsendung in den USA über den Sprachassistent Alexa berichtet. Dadurch wurde durch das dort gezeigte Beispiel bei den Zuschauern und ihrer aufmerksamen Alexa, massenweise Bestellungen ausgelöst.

Neben dem unfreiwilligen Belauschen gibt es bei den Sprachdiensten noch ein anderes Problem. Was passiert eigentlich genau mit meinen Daten? Hier hüllen sich die Anbieter in Schweigen, was die Speicherdauer und Verwendung der Sprachdialoge betrifft. Ein wenig erinnert das Ganze etwas an das Buch„1984“ von George Orwell, das von einem totalitären Überwachungsstaat handelt, was damit etwas mehr Realität wird.

Sprachsteuerung erschließt neue Nutzerkreise

Die Sprachsteuerung schafft neue Möglichkeiten zum Dialog mit dem Kunden. Sie erschließt neue Nutzerkreise (z. B. Senioren und Menschen mit Beeinträchtigung) und Szenarien (z. B. Online-Shopping, Anlagensteuerung und connected car). Google (Speech), IBM (Watson Speech to Text) Amazon (Alexa), Microsoft (Cortana) und Apple (Siri) bieten unterunterschiedliche Lösungen und Herangehensweisen an das Thema. Deswegen wird es hier einen starken Wettbewerb darum geben, wer die meisten Partner, die besten Integrationen und Funktionen bieten kann. Der Weg vom Smartphone zum Smarthome war gar nicht so lang, wie der Weg vom Internet in die Cloud. Mit Siri im iPhone 4S hat die Spracheingabe einen weiteren Schritt getan. Doch inzwischen können Sprachassistenzsystem, wie Amazon Echo, nicht nur Sprache in Text umwandeln, sondern im sprachgesteuerten Dialog einfache Alltagsdienste, wie Bestellen, Suchen, Gerätesteuerung, übernehmen.

Als die Besatzung des Raumschiffs Enterprise bei einer ihrer Reisen im Jahr 1986 einen Computer mit Maus und Tastatur vorfindet, versucht Chefingenieur Scotty die Maus für die für ihn normale Spracheingabe zu verwenden. Der dort gezeigte Macintosh von Apple war damals für viele eine Revolution, worüber die heutige Generation sich nur amüsieren kann.

Noch sind die Themen Sicherheit und Datenschutz bei Sprachsteuerung umstritten. Auch die Unterstützung von Fremdsprachen neben dem englischen Standard ist noch verbesserungswürdig. Trotzdem könnte das Jahr 2017 der Durchbruch für Sprachassistenten werden. Das entscheidende dabei ist, dass der Anwender anders als bei der Multi-Touch-Bedienung nicht erst neue Gesten lernen muss, sondern seine gewohnte Sprache verwenden kann.

Schlagwörter: Chatbot, maschninelles Lernen, Sprachassistent, Spracherkennung

Autoreninfo

Redaktion

Unser Blog wird von unseren Mitarbeitenden aus unterschiedlichen Bereichen geschrieben. Wir richten uns an alle IT-interessierten Leser:innen. Komplexe IT-Themen und IT-Projekte sind unser Alltagsgeschäft. Unser Fokus liegt daher auf spannenden Themen rund um die Welt der IT und wie diese unser Leben sowie die Gesellschaft beeinflusst und verändert.