Aprendendo a operar uma VUI fazendo as perguntas certas

Publicados: 2019-06-20

Nota do Editor: Adrien Schmidt é um empreendedor, engenheiro e inovador reconhecido internacionalmente. Em 2015, ele cofundou a Aristotle by Bouquet.ai, uma empresa de software empresarial que oferece um assistente pessoal de análise de voz para converter análises de dados em conversas significativas. Os pensamentos e opiniões expressos neste comentário são de sua autoria.

***

A ciência por trás das interfaces gráficas do usuário é afinada – o resultado de quase três décadas de design, desenvolvimento e testes. As interfaces de usuário de voz, por outro lado, são incrivelmente novas, chegando ao mainstream apenas 7 anos atrás, no lançamento do iOS 5 para o iPhone 4S. Em menos de uma década, a voz se tornou um ecossistema em si, impulsionado por um crescimento explosivo, não apenas com sua presença onipresente em dispositivos móveis, mas com as dezenas de milhões de dispositivos domésticos vendidos a cada ano pela Amazon, Google e vários outros.

Para os desenvolvedores de VUI que estão lidando com essa nova forma de pesquisa e engajamento de software, a tecnologia representa uma confluência de ficção científica e limitações modernas de IA – o culminar de mais de cinquenta anos de sonhos e experimentos. Portanto, não é surpreendente que usuários e desenvolvedores ainda estejam aprendendo como é uma VUI e como ela deve operar.

Que perguntas um usuário deve fazer para obter as respostas de que precisa? quais comandos eles devem dar para acionar as ações que desejam? Essa é a maior e mais urgente questão que a indústria enfrenta atualmente. À medida que as VUIs melhoram e se tornam simplificadas, o que os usuários perguntarão e como eles se comunicarão nos próximos anos?

O que a IA deve entender?

O desafio de uma interface de usuário de voz é que ela se baseia no diálogo e nos gatilhos, dicas e coloquialismos que são exclusivos de quase todos os indivíduos que usarão seu software. Tem regras e deve ser treinado para responder a certos padrões de fala, falados de certas maneiras.

Quanto mais flexível você tornar sua interface, mais treinamento ela exigirá e mais suscetível a erros ela se tornará. Quanto menos flexível for, mais frustrante será para o usuário. Portanto, é preciso haver um bom equilíbrio entre o que a IA entenderá e o que o usuário é responsável.

Optamos por colocar o diálogo no centro do nosso design, de forma que o sistema atualize um contexto no fluxo de perguntas e respostas. Isso nos permite focar em questões mais simples. É uma grande diferença com a Pesquisa, pois estamos acostumados com ela desde o Google. Em vez de colocar todas as palavras-chave em um único enunciado, o que é complicado com o Voice e cria confusão para a PNL, optamos por diálogos e acompanhamentos como forma de dividir uma questão complexa em subquestões menores e mais fáceis de formular e para entender.

Comunicando Limitações e Expectativas ao Usuário Final

No sentido tradicional, o design é um processo fortemente envolvido que depende amplamente do conhecimento e experiência dos designers, combinado com testes e experimentações direcionados com os usuários. Com uma VUI, isso é um pouco diferente. Há menos práticas recomendadas estabelecidas sobre como a VUI deve funcionar e, o mais importante, o sistema é de autoaprendizagem. Isso transforma o processo de design em algo em que os algoritmos desempenham um papel maior, por exemplo, para determinar como levar em consideração o feedback do usuário, novos enunciados, novos sinônimos etc.

Você precisará projetar seu produto para capturar os dados certos para aprender com seus usuários o máximo possível, o que significa uma iteração quase ilimitada em uma variedade de diferentes barreiras tecnológicas - desde a compreensão do usuário pela IA principal até as maneiras pelas quais você solicita ao usuário entrada e as respostas que você recebe.

Ao mesmo tempo, o sistema precisa comunicar ao usuário o que é necessário. Se você já usou um Echo, sabe que o Alexa solicita respostas detalhadas, muitas vezes de forma redundante para usuários existentes. Isso é intencional e importante, pois informa ao usuário exatamente o que é necessário, reduzindo a frequência com que as pessoas podem “ficar presas” repetindo a mesma pergunta de diferentes formas.

É tentador usar árvores de diálogo por causa de suas semelhanças com fluxogramas de UX – tentando corresponder ao fluxo natural da fala humana quando uma pergunta é feita. Embora os designers possam inferir até certo ponto, muito disso é realmente inútil em uma conversa em linguagem natural. Prever o que um usuário perguntará é um processo desafiador que requer medidas iguais de arte e ciência. Quando feito corretamente, você construirá um sistema cuidadosamente equilibrado que pode lidar com as intenções do usuário cada vez mais sutis e movê-los na direção certa para as informações que procuram.

O próximo passo para algoritmos VUI

O próximo estágio natural para interfaces de voz é o tipo de maturidade que já vemos em várias outras tecnologias – a capacidade dos dispositivos de reconhecer e interagir com os usuários e levar em conta seu “contexto”: localização, reuniões futuras, mensagens recentes, hábitos etc. O desafio não é apenas técnico, mas também uma questão de obter a confiança dos usuários de que não estamos invadindo sua privacidade ao analisar seus dados. Isso é possível com o processamento no dispositivo, em que os algoritmos são executados localmente no dispositivo e não compartilham informações com o provedor de serviços ou o fabricante do dispositivo.

Isso não apenas tornará os sistemas mais fáceis de usar onde quer que o usuário esteja, mas também permitirá que o sistema fique mais inteligente, aproveitando as tecnologias de aprendizado de máquina para começar a inferir maiores quantidades de informações dos usuários com base em seu humor, tom de voz, contexto e palavra seleção. Ainda estamos a algum tempo de isso se tornar realidade, mas o investimento e a atenção aos detalhes na interação do usuário dentro desses sistemas nos ajudarão a nos aproximar ainda mais.

Há um equilíbrio zen cuidadoso entre a IA aprendendo com o que um usuário pergunta e o usuário aprendendo o que pedir para obter algo de uma interface de voz. O equilíbrio continuará a mudar para a IA à medida que os sistemas se tornarem mais inteligentes e onipresentes, mas, por enquanto, os designers precisam estar cientes desse problema e criar aplicativos para corresponder.

***

Adrien Schmidt é um engenheiro, palestrante e empresário reconhecido internacionalmente. Ele é o CEO e cofundador da Aristotle by Bouquet.ai, uma empresa de software empresarial em San Francisco, CA, que oferece um assistente de análise de voz pessoal para converter análises de dados em conversas significativas. Como um líder de pensamento no espaço de IA/Voz, seu trabalho pode ser encontrado em grandes publicações como Forbes, Inc, HuffPo e B2C. Ele está listado na Inc. como um AI Entrepreneur to Watch e falou em eventos como Web Summit, Collision, Conversational Interaction, VOICE Summit e P&G Data Analytics Summit. Conecte-se com ele em sua empresa ou site pessoal, Twitter ou LinkedIn.