Învățați cum să operați un VUI punând întrebările potrivite

Publicat: 2019-06-20

Nota editorului: Adrien Schmidt este un antreprenor, inginer și inovator recunoscut la nivel internațional. În 2015, el a co-fondat Aristotel de Bouquet.ai, o companie de software pentru întreprinderi care oferă un asistent personal de analiză vocală pentru a transforma analiza datelor în conversații semnificative. Gândurile și opiniile exprimate în acest comentariu sunt ale sale.

***

Știința din spatele interfețelor grafice cu utilizatorul este reglată fin – rezultatul a aproape trei decenii de proiectare, dezvoltare și testare. Interfețele cu utilizatorul de voce, în schimb, sunt incredibil de noi, ajungând în curentul mainstream cu doar 7 ani în urmă, în lansarea iOS 5 pentru iPhone 4S. În mai puțin de un deceniu, vocea a devenit un ecosistem în sine, condus de o creștere explozivă, nu doar prin prezența sa omniprezentă în dispozitivele mobile, ci și cu zecile de milioane de dispozitive de acasă vândute în fiecare an de Amazon, Google și alte câteva altele.

Pentru dezvoltatorii VUI care abordează această nouă formă de căutare și implicare în software, tehnologia reprezintă o confluență a limitărilor științifico-fantastice și moderne a AI - punctul culminant a mai mult de cincizeci de ani de vise și experimente. Deci, nu este surprinzător faptul că utilizatorii și dezvoltatorii deopotrivă învață încă cum arată un VUI și cum ar trebui să funcționeze.

Ce întrebări ar trebui să pună un utilizator pentru a obține răspunsurile de care are nevoie? ce comenzi ar trebui să dea pentru a declanșa acțiunile pe care le doresc? Aceasta este cea mai mare și mai presantă întrebare cu care se confruntă industria în prezent. Pe măsură ce VUI-urile se îmbunătățesc și devin simplificate, ce vor întreba utilizatorii și cum vor comunica ei în anii următori?

Ce ar trebui să înțeleagă AI?

Provocarea unei interfețe vocale cu utilizatorul este că se bazează pe dialog și pe declanșatorii, indiciile și colocvialismele care sunt unice pentru aproape fiecare individ care va folosi software-ul dvs. Are reguli și trebuie antrenat să răspundă la anumite modele de vorbire, rostite în anumite moduri.

Cu cât vă faceți interfața mai flexibilă, cu atât va fi mai multă instruire și va deveni mai predispusă la erori. Cu cât este mai puțin flexibil, cu atât va fi mai frustrant pentru utilizator. Deci, aici trebuie să existe un echilibru fin între ceea ce AI va înțelege și pentru ce este responsabil utilizatorul.

Am ales să plasăm dialogul în centrul designului nostru, astfel încât sistemul să actualizeze un context privind fluxul de întrebări și răspunsuri. Acest lucru ne permite să ne concentrăm pe întrebări mai simple. Este o mare diferență cu Căutarea, așa cum ne-am obișnuit de la Google. În loc să plasăm toate cuvintele cheie într-o singură pronunțare, ceea ce este complicat cu Voce și creează confuzie pentru NLP, am ales dialoguri și urmăriri ca o modalitate de a împărți o întrebare complexă în sub-întrebări mai mici, care sunt mai ușor de formulat. și să înțeleagă.

Comunicarea limitărilor și așteptărilor către utilizatorul final

În sensul tradițional, designul este un proces puternic implicat, care se bazează în mare măsură pe expertiza și experiența designerilor, combinată cu testarea și experimentarea direcționată cu utilizatorii. Cu un VUI, acest lucru este ușor diferit. Există mai puține bune practici stabilite în ceea ce privește modul în care ar trebui să funcționeze VUI și, cel mai important, sistemul este auto-învățare. Acest lucru transformă procesul de proiectare într-un lucru în care algoritmii joacă un rol mai important, de exemplu, pentru a determina cum să ia în considerare feedback-ul utilizatorilor, noile enunțuri, noi sinonime etc.

Va trebui să vă proiectați produsul pentru a capta datele potrivite pentru a învăța de la utilizatori cât mai mult posibil, ceea ce înseamnă o iterație aproape nelimitată printr-o serie de bariere tehnologice diferite - de la înțelegerea de bază a IA a utilizatorului până la modurile în care îi solicitați utilizatorului. input și răspunsurile pe care le primiți.

În același timp, sistemul trebuie să comunice utilizatorului ceea ce este necesar. Dacă ați folosit vreodată un Echo, știți că Alexa solicită răspunsuri detaliate, de multe ori redundant pentru utilizatorii existenți. Acest lucru este intenționat și important, deoarece îi spune utilizatorului exact ce este necesar, reducând în același timp frecvența cu care oamenii s-ar putea „bloca” repetând aceeași întrebare în diferite forme.

Este tentant să folosiți arbori de dialog din cauza asemănărilor lor cu diagramele de flux UX - încercând să se potrivească fluxul natural al vorbirii umane atunci când se pune o întrebare. În timp ce designerii pot deduce într-o oarecare măsură, multe dintre acestea sunt de fapt inutile într-o conversație în limbaj natural. A prezice ceea ce va cere un utilizator este un proces provocator care necesită măsuri egale de artă și știință. Când este făcut corect, veți construi un sistem atent echilibrat care poate gestiona intențiile din ce în ce mai subtile ale utilizatorilor și le veți muta în direcția corectă către informațiile pe care le caută.

Următorul pas pentru algoritmii VUI

Următoarea etapă naturală pentru interfețele vocale este tipul de maturitate pe care îl vedem deja în mai multe alte tehnologii – capacitatea dispozitivelor de a recunoaște și de a interacționa cu utilizatorii și de a ține cont de „contextul” acestora: locație, întâlniri viitoare, mesaje recente, obiceiuri etc. . Provocarea nu este doar tehnică, ci este și o chestiune de a obține încrederea utilizatorilor că nu le invadăm confidențialitatea analizând datele lor. Acest lucru este posibil cu procesarea pe dispozitiv, unde algoritmii rulează local pe dispozitiv și nu partajează informații cu furnizorul de servicii sau producătorul dispozitivului.

Acest lucru nu numai că va face sistemele mai ușor de utilizat oriunde s-ar afla un utilizator, dar va permite sistemului să devină mai inteligent, valorificând tehnologiile de învățare automată pentru a începe să deducă cantități mai mari de informații de la utilizatori în funcție de starea lor de spirit, tonul vocii, context și cuvânt. selecţie. Suntem încă la ceva timp înainte ca acest lucru să devină o realitate, dar investiția și atenția acordată detaliilor în interacțiunea cu utilizatorul în cadrul acestor sisteme ne vor ajuta să ne apropie mult.

Există un echilibru zen atent între învățarea AI din ceea ce întreabă un utilizator și utilizatorul care învață ce să ceară pentru a obține ceva dintr-o interfață vocală. Echilibrul va continua să se îndrepte către IA pe măsură ce sistemele devin mai inteligente și mai omniprezente, dar pentru moment, designerii trebuie să fie conștienți de această problemă și să creeze aplicații care să se potrivească.

***

Adrien Schmidt este un inginer, vorbitor și antreprenor recunoscut la nivel internațional. El este CEO și co-fondator al Aristotel de Bouquet.ai, o companie de software pentru întreprinderi din San Francisco, CA, care oferă un asistent personal de analiză vocală pentru a transforma analiza datelor în conversații semnificative. În calitate de lider de gândire în spațiul AI/Voice, munca sa poate fi găsită în publicații importante precum Forbes, Inc, HuffPo și B2C. El este listat în Inc. ca un antreprenor AI de urmărit și a vorbit la evenimente precum Web Summit, Collision, Conversational Interaction, VOICE Summit și P&G Data Analytics Summit. Conectează-te cu el pe site-ul său personal sau companie, Twitter sau LinkedIn.