Nauka obsługi VUI poprzez zadawanie właściwych pytań

Opublikowany: 2019-06-20

Od redakcji: Adrien Schmidt jest uznanym na arenie międzynarodowej przedsiębiorcą, inżynierem i innowatorem. W 2015 roku był współzałożycielem firmy Aristotle by Bouquet.ai, firmy zajmującej się oprogramowaniem dla przedsiębiorstw, która dostarcza osobistego asystenta analizy głosu, który przekształca analizę danych w sensowną rozmowę. Myśli i opinie wyrażone w tym komentarzu są jego własnymi.

***

Nauka kryjąca się za graficznymi interfejsami użytkownika jest precyzyjnie dopracowana – wynik prawie trzech dekad projektowania, rozwoju i testowania. Z drugiej strony interfejsy głosowe użytkownika są niesamowicie nowe, docierając do głównego nurtu zaledwie 7 lat temu, w wydaniu iOS 5 dla iPhone'a 4S. W niecałą dekadę głos stał się ekosystemem samym w sobie, napędzanym gwałtownym rozwojem, nie tylko dzięki jego wszechobecności w urządzeniach mobilnych, ale także dzięki dziesiątkom milionów urządzeń domowych sprzedawanych każdego roku przez Amazon, Google i kilka innych

Dla programistów VUI, którzy zmagają się z tą nową formą wyszukiwania i zaangażowania w oprogramowanie, technologia ta stanowi zbieg ograniczeń science fiction i współczesnej sztucznej inteligencji – kulminację ponad pięćdziesięciu lat marzeń i eksperymentów. Nic więc dziwnego, że zarówno użytkownicy, jak i programiści wciąż uczą się, jak wygląda VUI i jak powinien działać.

Jakie pytania powinien zadać użytkownik, aby uzyskać odpowiedzi, których potrzebuje? jakie polecenia powinni wydać, aby wywołać żądane akcje? To największe i najbardziej palące pytanie, przed którym stoi obecnie branża. O co użytkownicy będą pytać i jak będą komunikować się w nadchodzących latach w miarę ulepszania i usprawniania VUI?

Co powinna zrozumieć sztuczna inteligencja?

Wyzwaniem dla głosowego interfejsu użytkownika jest to, że opiera się on na dialogach oraz wyzwalaczach, wskazówkach i kolokwializmach, które są unikalne dla prawie każdej osoby, która będzie korzystać z Twojego oprogramowania. Ma zasady i musi być wyszkolony, aby reagować na pewne wzorce mowy, wypowiadane w określony sposób.

Im bardziej uelastycznisz swój interfejs, tym więcej szkoleń będzie wymagał i będzie podatny na błędy. Im mniej elastyczny, tym bardziej frustrujące dla użytkownika. Trzeba więc zachować równowagę między tym, co zrozumie sztuczna inteligencja i za co odpowiada użytkownik.

Zdecydowaliśmy się umieścić dialog w centrum naszego projektu, tak aby system aktualizował kontekst przepływu pytań i odpowiedzi. To pozwala nam skupić się na prostszych pytaniach. To duża różnica w wyszukiwarce, do której przywykliśmy od czasu Google. Zamiast umieszczać wszystkie słowa kluczowe w jednej wypowiedzi, co jest skomplikowane w przypadku Voice i wprowadza zamieszanie w NLP, wybraliśmy dialogi i kontynuacje jako sposób na rozbicie złożonego pytania na mniejsze pytania podrzędne, które są łatwiejsze do sformułowania i zrozumieć.

Informowanie użytkownika końcowego o ograniczeniach i oczekiwaniach

W tradycyjnym sensie projektowanie jest mocno zaangażowanym procesem, który w dużym stopniu opiera się na wiedzy i doświadczeniu projektantów, w połączeniu z ukierunkowanymi testami i eksperymentami z użytkownikami. Z VUI jest to nieco inne. Istnieje mniej najlepszych praktyk dotyczących tego, jak VUI powinien działać, a co najważniejsze, system sam się uczy. To zmienia proces projektowania w coś, w czym algorytmy odgrywają większą rolę, na przykład w określaniu, w jaki sposób uwzględniać opinie użytkowników, nowe wypowiedzi, nowe synonimy itp.

Będziesz musiał zaprojektować swój produkt tak, aby przechwytywał właściwe dane, aby jak najwięcej uczyć się od użytkowników, co oznacza prawie nieograniczoną iterację przez szereg różnych barier technologicznych – od podstawowego zrozumienia użytkownika przez sztuczną inteligencję do sposobów, w jakie podpowiadasz użytkownikowi dane wejściowe i odpowiedzi, które otrzymujesz.

Jednocześnie system musi komunikować użytkownikowi, co jest potrzebne. Jeśli kiedykolwiek korzystałeś z Echo, wiesz, że Alexa wyświetla szczegółowe odpowiedzi, często zbędne dla istniejących użytkowników. Jest to celowe i ważne, ponieważ dokładnie mówi użytkownikowi, co jest potrzebne, jednocześnie zmniejszając częstotliwość, z jaką ludzie mogą „utykać” powtarzając to samo pytanie w różnych formach.

Korzystanie z drzew dialogowych jest kuszące ze względu na ich podobieństwo do schematów przepływu UX – próby dopasowania naturalnego toku ludzkiej mowy, gdy zadawane jest pytanie. Podczas gdy projektanci mogą do pewnego stopnia wnioskować, wiele z nich jest właściwie bezużytecznych w rozmowie w języku naturalnym. Przewidywanie, o co zapyta użytkownik, to trudny proces, który wymaga równych środków sztuki i nauki. Po prawidłowym wykonaniu zbudujesz starannie wyważony system, który poradzi sobie z coraz bardziej subtelnymi intencjami użytkowników i skieruje je we właściwym kierunku w kierunku poszukiwanych przez nich informacji.

Następny krok dla algorytmów VUI

Kolejnym naturalnym etapem dla interfejsów głosowych jest rodzaj dojrzałości, który już widzimy w kilku innych technologiach – zdolność urządzeń do rozpoznawania i interakcji z użytkownikami oraz uwzględniania ich „kontekstu”: lokalizacji, zbliżających się spotkań, ostatnich wiadomości, nawyków itp. Wyzwanie ma charakter nie tylko techniczny, ale jest także kwestią zdobycia zaufania użytkowników, że nie naruszamy ich prywatności, patrząc na ich dane. Jest to możliwe w przypadku przetwarzania na urządzeniu, gdzie algorytmy działają lokalnie na urządzeniu i nie udostępniają żadnych informacji usługodawcy ani producentowi urządzenia.

Ułatwi to nie tylko korzystanie z systemów w dowolnym miejscu, w którym znajduje się użytkownik, ale także pozwoli systemowi stać się inteligentniejszymi, wykorzystując technologie uczenia maszynowego do wnioskowania o większej ilości informacji od użytkowników na podstawie ich nastroju, tonu głosu, kontekstu i słowa. wybór. Jeszcze trochę czasu dzieli nas od tego, aby stało się to rzeczywistością, ale inwestycja i dbałość o szczegóły w interakcji użytkowników w ramach tych systemów pomogą nam zbliżyć się do nas o wiele.

Istnieje ostrożna równowaga zen między uczeniem się sztucznej inteligencji na podstawie tego, co prosi użytkownik, a tym, co użytkownik uczy się, o co prosić, aby uzyskać coś z interfejsu głosowego. Równowaga będzie się przesuwać w kierunku sztucznej inteligencji, gdy systemy będą coraz mądrzejsze i bardziej wszechobecne, ale na razie projektanci muszą być świadomi tego problemu i tworzyć dopasowane aplikacje.

***

Adrien Schmidt jest uznanym na całym świecie inżynierem, mówcą i przedsiębiorcą. Jest dyrektorem generalnym i współzałożycielem Aristotle przez Bouquet.ai, firmę zajmującą się oprogramowaniem dla przedsiębiorstw z San Francisco w Kalifornii, która zapewnia osobistego asystenta analizy głosu, który przekształca analizę danych w sensowną rozmowę. Jako lider myśli w przestrzeni AI/Voice, jego prace można znaleźć w najważniejszych publikacjach, takich jak Forbes, Inc, HuffPo i B2C. Jest wymieniony w Inc. jako AI Entrepreneur to Watch i przemawiał na wydarzeniach takich jak Web Summit, Collision, Conversational Interaction, VOICE Summit i P&G Data Analytics Summit. Połącz się z nim na jego firmowej lub osobistej stronie internetowej, Twitterze lub LinkedIn.