Apprendre à faire fonctionner un VUI en posant les bonnes questions

Publié: 2019-06-20

Note de l'éditeur : Adrien Schmidt est un entrepreneur, ingénieur et innovateur de renommée internationale. En 2015, il a cofondé Aristotle by Bouquet.ai, une société de logiciels d'entreprise qui propose un assistant personnel d'analyse vocale pour convertir l'analyse de données en conversation significative. Les pensées et opinions exprimées dans ce commentaire sont les siennes.

***

La science derrière les interfaces utilisateur graphiques est finement réglée - le résultat de près de trois décennies de conception, de développement et de tests. Les interfaces utilisateur vocales, en revanche, sont incroyablement nouvelles, atteignant le grand public il y a seulement 7 ans, dans la version iOS 5 pour l'iPhone 4S. En moins d'une décennie, la voix est devenue un écosystème en soi, entraîné par une croissance explosive, non seulement avec sa présence omniprésente dans les appareils mobiles, mais avec les dizaines de millions d'appareils domestiques vendus chaque année par Amazon, Google et plusieurs autres.

Pour les développeurs VUI qui s'attaquent à cette nouvelle forme de recherche et d'engagement logiciel, la technologie représente une confluence de la science-fiction et des limites de l'IA moderne - l'aboutissement de plus de cinquante ans de rêves et d'expériences. Il n'est donc pas surprenant que les utilisateurs et les développeurs apprennent encore à quoi ressemble un VUI et comment il doit fonctionner.

Quelles questions un utilisateur doit-il poser pour obtenir les réponses dont il a besoin ? quelles commandes doivent-ils donner pour déclencher les actions qu'ils souhaitent ? C'est la question la plus importante et la plus urgente à laquelle l'industrie est actuellement confrontée. À mesure que les VUI s'améliorent et se rationalisent, que demanderont les utilisateurs et comment communiqueront-ils dans les années à venir ?

Que doit comprendre l'IA ?

Le défi d'une interface utilisateur vocale est qu'elle s'appuie sur le dialogue et les déclencheurs, les signaux et les expressions familières qui sont propres à presque chaque personne qui utilisera votre logiciel. Il a des règles et doit être formé pour répondre à certains modèles de discours, prononcés de certaines manières.

Plus vous rendrez votre interface flexible, plus elle nécessitera de formation et sera sujette aux erreurs. Moins il est flexible, plus il sera frustrant pour l'utilisateur. Il doit donc y avoir un juste équilibre entre ce que l'IA comprendra et ce dont l'utilisateur est responsable.

Nous avons choisi de placer le dialogue au cœur de notre conception, de sorte que le système mette à jour un contexte sur le flux de questions et de réponses. Cela nous permet de nous concentrer sur des questions plus simples. C'est une grande différence avec la recherche car nous y sommes habitués depuis Google. Au lieu de placer tous les mots-clés dans un seul énoncé, ce qui est compliqué avec la voix et crée de la confusion pour la PNL, nous avons choisi les dialogues et les suivis comme moyen de décomposer une question complexe en sous-questions plus petites plus faciles à formuler. et de comprendre.

Communiquer les limites et les attentes à l'utilisateur final

Au sens traditionnel, la conception est un processus très complexe qui s'appuie largement sur l'expertise et l'expérience des concepteurs, combinées à des tests ciblés et à l'expérimentation avec les utilisateurs. Avec un VUI, c'est légèrement différent. Il y a moins de bonnes pratiques établies sur la façon dont VUI devrait fonctionner, et surtout, le système est auto-apprenant. Cela transforme le processus de conception en quelque chose où les algorithmes jouent un rôle plus important, par exemple pour déterminer comment prendre en compte les commentaires des utilisateurs, les nouveaux énoncés, les nouveaux synonymes, etc.

Vous devrez concevoir votre produit pour capturer les bonnes données pour apprendre autant que possible de vos utilisateurs, ce qui signifie une itération presque illimitée à travers une gamme de barrières technologiques différentes - de la compréhension de l'utilisateur par l'IA à la manière dont vous invitez l'utilisateur entrée et les réponses que vous recevez.

En même temps, le système doit communiquer à l'utilisateur ce dont il a besoin. Si vous avez déjà utilisé un Echo, vous savez qu'Alexa demande des réponses détaillées, souvent redondantes pour les utilisateurs existants. Ceci est intentionnel et important car il indique exactement à l'utilisateur ce dont il a besoin tout en réduisant la fréquence à laquelle les gens pourraient «se bloquer» en répétant la même question sous différentes formes.

Il est tentant d'utiliser des arbres de dialogue en raison de leurs similitudes avec les organigrammes UX - en essayant de faire correspondre le flux naturel de la parole humaine lorsqu'une question est posée. Bien que les concepteurs puissent déduire dans une certaine mesure, une grande partie de cela est en fait inutile dans une conversation en langage naturel. Prédire ce qu'un utilisateur demandera est un processus difficile qui nécessite des mesures égales d'art et de science. Lorsque cela est fait correctement, vous construirez un système soigneusement équilibré qui peut gérer les intentions des utilisateurs de plus en plus subtiles et les déplacer dans la bonne direction vers les informations qu'ils recherchent.

La prochaine étape pour les algorithmes VUI

La prochaine étape naturelle pour les interfaces vocales est le type de maturité que nous voyons déjà dans plusieurs autres technologies - la capacité des appareils à reconnaître et interagir avec les utilisateurs et à prendre en compte leur « contexte » : emplacement, réunions à venir, messages récents, habitudes, etc. Le défi n'est pas seulement technique, mais il s'agit également d'obtenir la confiance des utilisateurs que nous n'envahissons pas leur vie privée en consultant leurs données. Cela est possible avec le traitement sur l'appareil, où les algorithmes s'exécutent localement sur l'appareil et ne partagent aucune information avec le fournisseur de services ou le fabricant de l'appareil.

Cela rendra non seulement les systèmes plus faciles à utiliser où que se trouve un utilisateur, mais cela permettra au système de devenir plus intelligent, en tirant parti des technologies d'apprentissage automatique pour commencer à déduire de plus grandes quantités d'informations des utilisateurs en fonction de leur humeur, du ton de la voix, du contexte et du mot. sélection. Nous sommes encore loin que cela devienne une réalité, mais l'investissement et l'attention portée aux détails dans l'interaction des utilisateurs au sein de ces systèmes nous aideront à nous rapprocher encore plus.

Il existe un équilibre zen prudent entre l'IA apprenant à partir de ce qu'un utilisateur demande et l'utilisateur apprenant ce qu'il faut demander pour obtenir quelque chose d'une interface vocale. L'équilibre continuera de se déplacer vers l'IA à mesure que les systèmes deviennent plus intelligents et plus omniprésents, mais pour l'instant, les concepteurs doivent être conscients de ce problème et créer des applications en conséquence.

***

Adrien Schmidt est un ingénieur, conférencier et entrepreneur de renommée internationale. Il est le PDG et co-fondateur d'Aristotle by Bouquet.ai, une société de logiciels d'entreprise à San Francisco, en Californie, qui propose un assistant personnel d'analyse vocale pour convertir l'analyse de données en conversation significative. En tant que leader d'opinion dans l'espace AI/Voice, son travail peut être trouvé dans des publications majeures telles que Forbes, Inc, HuffPo et B2C. Il est répertorié dans Inc. en tant qu'entrepreneur en IA à surveiller et a pris la parole lors d'événements tels que Web Summit, Collision, Conversational Interaction, VOICE Summit et P&G Data Analytics Summit. Connectez-vous avec lui sur son site Web d'entreprise ou personnel, Twitter ou LinkedIn.