Lernen, wie man eine VUI bedient, indem man die richtigen Fragen stellt

Veröffentlicht: 2019-06-20

Anmerkung des Herausgebers: Adrien Schmidt ist ein international anerkannter Unternehmer, Ingenieur und Innovator. 2015 war er Mitbegründer von Aristotle by Bouquet.ai, einem Unternehmen für Unternehmenssoftware, das einen persönlichen Sprachanalyseassistenten bereitstellt, um Datenanalysen in aussagekräftige Gespräche umzuwandeln. Die in diesem Kommentar geäußerten Gedanken und Meinungen sind seine eigenen.

***

Die Wissenschaft hinter grafischen Benutzeroberflächen ist fein abgestimmt – das Ergebnis von fast drei Jahrzehnten Design, Entwicklung und Tests. Sprachbenutzeroberflächen hingegen sind unglaublich neu und erreichten den Mainstream erst vor 7 Jahren in der iOS 5-Version für das iPhone 4S. In weniger als einem Jahrzehnt hat sich die Sprache zu einem eigenen Ökosystem entwickelt, das durch ein explosives Wachstum angetrieben wird, nicht nur durch seine allgegenwärtige Präsenz in Mobilgeräten, sondern auch durch die zig Millionen von Heimgeräten, die jedes Jahr von Amazon, Google und mehreren anderen verkauft werden

Für VUI-Entwickler, die diese neue Form der Suche und des Software-Engagements in Angriff nehmen, stellt die Technologie einen Zusammenfluss von Science-Fiction und modernen KI-Einschränkungen dar – der Höhepunkt von mehr als fünfzig Jahren voller Träume und Experimente. Daher ist es nicht verwunderlich, dass Benutzer und Entwickler immer noch lernen, wie eine VUI aussieht und wie sie funktionieren sollte.

Welche Fragen sollte ein Benutzer stellen, um die Antworten zu erhalten, die er benötigt? Welche Befehle sollten sie geben, um die gewünschten Aktionen auszulösen? Das ist die größte und drängendste Frage, vor der die Branche derzeit steht. Was werden die Benutzer fragen und wie werden sie in den kommenden Jahren kommunizieren, wenn sich VUIs verbessern und rationalisieren?

Was sollte die KI verstehen?

Die Herausforderung einer Sprachbenutzeroberfläche besteht darin, dass sie auf Dialogen und den Auslösern, Hinweisen und umgangssprachlichen Ausdrücken beruht, die für fast jede Person, die Ihre Software verwendet, einzigartig sind. Es hat Regeln und muss darauf trainiert werden, auf bestimmte Sprachmuster zu reagieren, die auf bestimmte Weise gesprochen werden.

Je flexibler Sie Ihre Schnittstelle gestalten, desto schulungsintensiver und fehleranfälliger wird sie. Je weniger flexibel es ist, desto frustrierender wird es für den Benutzer. Hier muss also abgewogen werden, was die KI versteht und wofür der Nutzer verantwortlich ist.

Wir haben uns dafür entschieden, den Dialog in den Mittelpunkt unseres Designs zu stellen, sodass das System einen Kontext zum Fluss von Fragen und Antworten aktualisiert. Dadurch können wir uns auf einfachere Fragen konzentrieren. Es ist ein großer Unterschied zur Suche, wie wir es seit Google gewohnt sind. Anstatt alle Schlüsselwörter in einer einzigen Äußerung zu platzieren, was mit Voice kompliziert ist und Verwirrung für das NLP schafft, haben wir uns für Dialoge und Folgefragen entschieden, um eine komplexe Frage in kleinere Teilfragen zu zerlegen, die einfacher zu formulieren sind und zu verstehen.

Mitteilung von Einschränkungen und Erwartungen an den Endbenutzer

Im klassischen Sinne ist das Design ein stark involvierter Prozess, der in hohem Maße auf dem Fachwissen und der Erfahrung der Designer beruht, kombiniert mit gezieltem Testen und Experimentieren mit den Benutzern. Bei einer VUI ist dies etwas anders. Es gibt weniger etablierte Best Practices für die Funktionsweise von VUI, und vor allem ist das System selbstlernend. Dadurch wird der Designprozess zu einem Bereich, in dem Algorithmen eine größere Rolle spielen, beispielsweise um festzulegen, wie Benutzerfeedback, neue Äußerungen, neue Synonyme usw. berücksichtigt werden sollen.

Sie müssen Ihr Produkt so gestalten, dass es die richtigen Daten erfasst, um so viel wie möglich von Ihren Benutzern zu lernen, was nahezu unbegrenzte Iterationen über eine Reihe verschiedener technologischer Barrieren hinweg bedeutet – vom Verständnis des Benutzers durch die Kern-KI bis hin zu der Art und Weise, wie Sie Benutzer auffordern Input und die Antworten, die Sie erhalten.

Gleichzeitig muss das System dem Benutzer mitteilen, was benötigt wird. Wenn Sie jemals ein Echo verwendet haben, wissen Sie, dass Alexa detaillierte Antworten fordert, oft überflüssig für bestehende Benutzer. Dies ist beabsichtigt und wichtig, da es dem Benutzer genau sagt, was benötigt wird, und gleichzeitig die Häufigkeit verringert, mit der Personen „stecken bleiben“ könnten, wenn sie dieselbe Frage in verschiedenen Formen wiederholen.

Es ist verlockend, Dialogbäume zu verwenden, da sie den UX-Flussdiagrammen ähneln – sie versuchen, dem natürlichen Fluss der menschlichen Sprache zu entsprechen, wenn eine Frage gestellt wird. Während Designer bis zu einem gewissen Grad Rückschlüsse ziehen können, ist vieles davon in einer Konversation in natürlicher Sprache tatsächlich nutzlos. Die Vorhersage, was ein Benutzer fragen wird, ist ein herausfordernder Prozess, der gleichermaßen Kunst und Wissenschaft erfordert. Wenn Sie es richtig machen, bauen Sie ein sorgfältig ausgewogenes System auf, das mit immer subtileren Benutzerabsichten umgehen und sie in die richtige Richtung zu den gesuchten Informationen lenken kann.

Der nächste Schritt für VUI-Algorithmen

Die nächste natürliche Stufe für Sprachschnittstellen ist die Art von Reife, die wir bereits in mehreren anderen Technologien sehen – die Fähigkeit von Geräten, Benutzer zu erkennen und mit ihnen zu interagieren und ihren „Kontext“ zu berücksichtigen: Standort, bevorstehende Meetings, aktuelle Nachrichten, Gewohnheiten usw Die Herausforderung ist nicht nur technischer Natur, sondern es geht auch darum, das Vertrauen der Benutzer zu gewinnen, dass wir nicht in ihre Privatsphäre eindringen, indem wir uns ihre Daten ansehen. Dies ist mit On-Device-Processing möglich, bei dem Algorithmen lokal auf dem Gerät ausgeführt werden und keine Informationen mit dem Dienstanbieter oder Gerätehersteller teilen.

Dies macht die Systeme nicht nur benutzerfreundlicher, wo immer sich ein Benutzer befindet, sondern ermöglicht es dem System, intelligenter zu werden, indem es maschinelle Lerntechnologien nutzt, um größere Mengen an Informationen von Benutzern basierend auf ihrer Stimmung, ihrem Tonfall, Kontext und Wort abzuleiten Auswahl. Wir sind noch einige Zeit davon entfernt, dass dies Realität wird, aber die Investition und die Liebe zum Detail in die Benutzerinteraktion innerhalb dieser Systeme werden dazu beitragen, uns dem viel näher zu bringen.

Es gibt ein sorgfältiges Zen-Gleichgewicht zwischen dem Lernen der KI aus dem, was ein Benutzer fragt, und dem Lernen des Benutzers, was er fragen muss, um etwas aus einer Sprachschnittstelle herauszuholen. Das Gleichgewicht wird sich weiter in Richtung KI verschieben, da die Systeme intelligenter und allgegenwärtiger werden, aber im Moment müssen sich Designer dieses Problems bewusst sein und entsprechende Anwendungen entwickeln.

***

Adrien Schmidt ist ein international anerkannter Ingenieur, Redner und Unternehmer. Er ist CEO und Mitbegründer von Aristotle by Bouquet.ai, einem Unternehmen für Unternehmenssoftware in San Francisco, Kalifornien, das einen persönlichen Sprachanalyseassistenten bereitstellt, um Datenanalysen in sinnvolle Gespräche umzuwandeln. Als Vordenker im Bereich KI/Voice ist seine Arbeit in wichtigen Publikationen wie Forbes, Inc, HuffPo und B2C zu finden. Er ist in Inc. als AI Entrepreneur to Watch gelistet und hat auf Veranstaltungen wie Web Summit, Collision, Conversational Interaction, VOICE Summit und P&G Data Analytics Summit gesprochen. Verbinden Sie sich mit ihm auf seiner Unternehmens- oder persönlichen Website, Twitter oder LinkedIn.