Imparare a utilizzare una VUI ponendo le domande giuste

Pubblicato: 2019-06-20

Nota del redattore: Adrien Schmidt è un imprenditore, ingegnere e innovatore riconosciuto a livello internazionale. Nel 2015 ha co-fondato Aristotele da Bouquet.ai, una società di software aziendale che fornisce un assistente di analisi vocale personale per convertire l'analisi dei dati in conversazioni significative. I pensieri e le opinioni espresse in questo commento sono suoi.

***

La scienza alla base delle interfacce utente grafiche è stata perfezionata, il risultato di quasi tre decenni di progettazione, sviluppo e test. Le interfacce utente vocali, d'altra parte, sono incredibilmente nuove, raggiungendo il mainstream solo 7 anni fa, nella versione iOS 5 per iPhone 4S. In meno di un decennio, la voce è diventata un ecosistema a sé stante, guidato da una crescita esplosiva, non solo con la sua presenza onnipresente nei dispositivi mobili, ma con le decine di milioni di dispositivi domestici venduti ogni anno da Amazon, Google e molti altri

Per gli sviluppatori VUI che stanno affrontando questa nuova forma di ricerca e coinvolgimento del software, la tecnologia rappresenta una confluenza tra fantascienza e moderne limitazioni dell'IA: il culmine di oltre cinquant'anni di sogni ed esperimenti. Quindi, non sorprende che utenti e sviluppatori allo stesso modo stiano ancora imparando che aspetto ha una VUI e come dovrebbe funzionare.

Quali domande dovrebbe porre un utente per ottenere le risposte di cui ha bisogno? quali comandi dovrebbero dare per attivare le azioni che vogliono? Questa è la domanda più grande e urgente che l'industria deve attualmente affrontare. Man mano che le VUI migliorano e diventano semplificate, cosa chiederanno gli utenti e come comunicheranno negli anni a venire?

Cosa dovrebbe capire l'IA?

La sfida di un'interfaccia utente vocale è che si basa sul dialogo e sui trigger, i segnali e i colloquialismi che sono unici per quasi ogni individuo che utilizzerà il tuo software. Ha regole e deve essere addestrato per rispondere a determinati modelli di discorso, pronunciati in determinati modi.

Più flessibile renderai la tua interfaccia, più formazione richiederà e diventerà soggetta a errori. Meno flessibile è, più frustrante sarà per l'utente. Quindi qui deve esserci un buon equilibrio tra ciò che l'IA capirà e ciò di cui l'utente è responsabile.

Abbiamo scelto di porre il dialogo al centro della nostra progettazione, in modo tale che il sistema aggiorni un contesto sul flusso di domande e risposte. Questo ci permette di concentrarci su domande più semplici. È una grande differenza con la Ricerca poiché ci siamo abituati dai tempi di Google. Invece di inserire tutte le parole chiave in un'unica espressione, che è complicata con Voice e crea confusione per la NLP, abbiamo scelto dialoghi e follow-up come un modo per scomporre una domanda complessa in sotto-domande più piccole che sono più facili da formulare e per capire.

Comunicare i limiti e le aspettative all'utente finale

In senso tradizionale, il design è un processo fortemente coinvolto che si basa ampiamente sulla competenza e l'esperienza dei progettisti, combinate con test mirati e sperimentazioni con gli utenti. Con una VUI, questo è leggermente diverso. Ci sono meno best practice stabilite su come dovrebbe funzionare la VUI e, soprattutto, il sistema è l'autoapprendimento. Ciò trasforma il processo di progettazione in qualcosa in cui gli algoritmi svolgono un ruolo più importante, ad esempio per determinare come tenere conto del feedback degli utenti, delle nuove espressioni, dei nuovi sinonimi, ecc.

Dovrai progettare il tuo prodotto per acquisire i dati giusti per imparare dai tuoi utenti il più possibile, il che significa un'iterazione quasi illimitata attraverso una gamma di diverse barriere tecnologiche, dalla comprensione dell'utente da parte dell'IA di base ai modi in cui chiedi all'utente input e le risposte che ricevi.

Allo stesso tempo, il sistema deve comunicare all'utente ciò che è necessario. Se hai mai utilizzato un Echo, sai che Alexa richiede risposte dettagliate, spesso in modo ridondante per gli utenti esistenti. Questo è intenzionale e importante in quanto dice all'utente esattamente cosa è necessario riducendo la frequenza con cui le persone potrebbero "rimanere bloccate" ripetendo la stessa domanda in forme diverse.

Si è tentati di utilizzare gli alberi dei dialoghi a causa delle loro somiglianze con i diagrammi di flusso dell'esperienza utente, cercando di abbinare il flusso naturale del discorso umano quando viene posta una domanda. Mentre i designer possono in una certa misura dedurre, gran parte di questo è effettivamente inutile in una conversazione in linguaggio naturale. Prevedere ciò che un utente chiederà è un processo impegnativo che richiede pari misure di arte e scienza. Se fatto correttamente, costruirai un sistema attentamente bilanciato in grado di gestire gli intenti degli utenti sempre più sottili e spostarli nella giusta direzione verso le informazioni che cercano.

Il prossimo passo per gli algoritmi VUI

La fase successiva naturale per le interfacce vocali è il tipo di maturità che già vediamo in molte altre tecnologie: la capacità dei dispositivi di riconoscere e interagire con gli utenti e tenere conto del loro "contesto": posizione, riunioni imminenti, messaggi recenti, abitudini, ecc. La sfida non è solo tecnica, ma è anche una questione di ottenere la fiducia degli utenti che non stiamo invadendo la loro privacy guardando i loro dati. Ciò è possibile con l'elaborazione sul dispositivo, in cui gli algoritmi vengono eseguiti localmente sul dispositivo e non condividono informazioni con il fornitore di servizi o il produttore del dispositivo.

Ciò non solo renderà i sistemi più facili da usare ovunque si trovi un utente, ma consentirà al sistema di diventare più intelligente, sfruttando le tecnologie di apprendimento automatico per iniziare a dedurre maggiori quantità di informazioni dagli utenti in base al loro umore, tono di voce, contesto e parola selezione. Manca ancora un po' di tempo prima che questo diventi una realtà, ma l'investimento e l'attenzione ai dettagli nell'interazione dell'utente all'interno di questi sistemi ci aiuteranno ad avvicinarci ancora di più.

C'è un attento equilibrio zen tra l'apprendimento dell'IA da ciò che un utente chiede e l'utente che impara cosa chiedere per ottenere qualcosa da un'interfaccia vocale. L'equilibrio continuerà a spostarsi verso l'IA man mano che i sistemi diventano più intelligenti e onnipresenti, ma per ora i progettisti devono essere consapevoli di questo problema e creare applicazioni che corrispondano.

***

Adrien Schmidt è un ingegnere, oratore e imprenditore riconosciuto a livello internazionale. È CEO e co-fondatore di Aristotle di Bouquet.ai, una società di software aziendale con sede a San Francisco, in California, che fornisce un assistente di analisi vocale personale per convertire l'analisi dei dati in conversazioni significative. In qualità di leader di pensiero nello spazio AI/Voce, il suo lavoro può essere trovato in importanti pubblicazioni come Forbes, Inc, HuffPo e B2C. È elencato in Inc. come un imprenditore AI da tenere d'occhio e ha parlato in eventi come Web Summit, Collision, Conversational Interaction, VOICE Summit e P&G Data Analytics Summit. Connettiti con lui sulla sua azienda o sul sito Web personale, Twitter o LinkedIn.