Aprender a operar una VUI haciendo las preguntas correctas

Publicado: 2019-06-20

Nota del editor: Adrien Schmidt es un empresario, ingeniero e innovador reconocido internacionalmente. En 2015, cofundó Aristotle by Bouquet.ai, una empresa de software empresarial que ofrece un asistente de análisis de voz personal para convertir el análisis de datos en una conversación significativa. Los pensamientos y opiniones expresados ​​en este comentario son suyos.

***

La ciencia detrás de las interfaces gráficas de usuario está finamente afinada: es el resultado de casi tres décadas de diseño, desarrollo y pruebas. Las interfaces de usuario de voz, por otro lado, son increíblemente nuevas y se generalizaron hace solo 7 años, en el lanzamiento de iOS 5 para el iPhone 4S. En menos de una década, la voz se ha convertido en un ecosistema en sí mismo, impulsado por un crecimiento explosivo, no solo con su presencia omnipresente en los dispositivos móviles, sino con las decenas de millones de dispositivos domésticos vendidos cada año por Amazon, Google y muchos otros.

Para los desarrolladores de VUI que están abordando esta nueva forma de búsqueda y compromiso con el software, la tecnología representa una confluencia de la ciencia ficción y las limitaciones de la IA moderna: la culminación de más de cincuenta años de sueños y experimentos. Por lo tanto, no sorprende que tanto los usuarios como los desarrolladores todavía estén aprendiendo cómo se ve una VUI y cómo debería funcionar.

¿Qué preguntas debe hacer un usuario para obtener las respuestas que necesita? ¿Qué comandos deben dar para desencadenar las acciones que desean? Esa es la pregunta más grande y apremiante que enfrenta actualmente la industria. A medida que las VUI mejoren y se simplifiquen, ¿qué preguntarán los usuarios y cómo se comunicarán en los próximos años?

¿Qué debe entender la IA?

El desafío de una interfaz de usuario de voz es que se basa en el diálogo y los disparadores, señales y coloquialismos que son exclusivos de casi todas las personas que usarán su software. Tiene reglas y debe ser entrenado para responder a ciertos patrones de habla, hablado de ciertas maneras.

Cuanto más flexible haga su interfaz, más capacitación requerirá y se volverá propensa a errores. Cuanto menos flexible sea, más frustrante será para el usuario. Por lo tanto, debe haber un buen equilibrio aquí entre lo que la IA entenderá y de qué es responsable el usuario.

Elegimos colocar el diálogo en el centro de nuestro diseño, de modo que el sistema actualice un contexto en el flujo de preguntas y respuestas. Esto nos permite centrarnos en preguntas más simples. Es una gran diferencia con la Búsqueda, ya que estamos acostumbrados desde Google. En lugar de colocar todas las palabras clave en un solo enunciado, lo que es complicado con Voice y crea confusión para el NLP, elegimos diálogos y seguimientos como una forma de dividir una pregunta compleja en subpreguntas más pequeñas que son más fáciles de formular. y entender.

Comunicar limitaciones y expectativas al usuario final

En el sentido tradicional, el diseño es un proceso muy complicado que se basa en gran medida en la pericia y la experiencia de los diseñadores, combinada con pruebas específicas y experimentación con los usuarios. Con una VUI, esto es ligeramente diferente. Hay menos prácticas recomendadas establecidas sobre cómo debería funcionar la VUI y, lo que es más importante, el sistema es de autoaprendizaje. Eso convierte el proceso de diseño en algo donde los algoritmos juegan un papel más importante, por ejemplo, para determinar cómo tener en cuenta los comentarios de los usuarios, nuevas declaraciones, nuevos sinónimos, etc.

Deberá diseñar su producto para capturar los datos correctos para aprender de sus usuarios tanto como sea posible, lo que significa una iteración casi ilimitada a través de una variedad de diferentes barreras tecnológicas, desde la comprensión del usuario por parte de la IA central hasta las formas en que le solicita. entrada y las respuestas que recibe.

Al mismo tiempo, el sistema necesita comunicar al usuario lo que necesita. Si alguna vez usó un Echo, sabe que Alexa solicita respuestas detalladas, a menudo de manera redundante para los usuarios existentes. Esto es intencional e importante ya que le dice al usuario exactamente lo que necesita mientras reduce la frecuencia con la que las personas pueden "quedarse atascadas" repitiendo la misma pregunta en diferentes formas.

Es tentador usar árboles de diálogo debido a sus similitudes con los diagramas de flujo de UX, que intentan igualar el flujo natural del habla humana cuando se hace una pregunta. Si bien los diseñadores pueden inferir hasta cierto punto, gran parte de esto es inútil en una conversación de lenguaje natural. Predecir lo que preguntará un usuario es un proceso desafiante que requiere la misma medida de arte y ciencia. Cuando se hace correctamente, construirá un sistema cuidadosamente equilibrado que puede manejar las intenciones de los usuarios cada vez más sutiles y moverlos en la dirección correcta hacia la información que buscan.

El siguiente paso para los algoritmos VUI

La siguiente etapa natural para las interfaces de voz es el tipo de madurez que ya vemos en varias otras tecnologías: la capacidad de los dispositivos para reconocer e interactuar con los usuarios y tener en cuenta su "contexto": ubicación, próximas reuniones, mensajes recientes, hábitos, etc. El desafío no es solo técnico, sino que también se trata de ganarse la confianza de los usuarios de que no estamos invadiendo su privacidad al mirar sus datos. Esto es posible con el procesamiento en el dispositivo, donde los algoritmos se ejecutan localmente en el dispositivo y no comparten información con el proveedor de servicios o el fabricante del dispositivo.

Esto no solo hará que los sistemas sean más fáciles de usar donde sea que esté un usuario, sino que también permite que el sistema se vuelva más inteligente, aprovechando las tecnologías de aprendizaje automático para comenzar a inferir una mayor cantidad de información de los usuarios en función de su estado de ánimo, tono de voz, contexto y palabra. selección. Todavía estamos lejos de que esto se convierta en una realidad, pero la inversión y la atención a los detalles en la interacción del usuario dentro de estos sistemas nos ayudarán a acercarnos mucho más.

Existe un cuidadoso equilibrio zen entre la IA que aprende de lo que pregunta un usuario y el usuario que aprende qué preguntar para obtener algo de una interfaz de voz. El equilibrio continuará cambiando hacia la IA a medida que los sistemas se vuelvan más inteligentes y ubicuos, pero por ahora, los diseñadores deben ser conscientes de este problema y crear aplicaciones que coincidan.

***

Adrien Schmidt es un ingeniero, orador y empresario reconocido internacionalmente. Es el director ejecutivo y cofundador de Aristotle by Bouquet.ai, una empresa de software empresarial en San Francisco, CA, que ofrece un asistente de análisis de voz personal para convertir el análisis de datos en una conversación significativa. Como líder de pensamiento en el espacio de AI/Voice, su trabajo se puede encontrar en publicaciones importantes como Forbes, Inc, HuffPo y B2C. Está incluido en Inc. como AI Entrepreneur to Watch y ha hablado en eventos como Web Summit, Collision, Conversational Interaction, VOICE Summit y P&G Data Analytics Summit. Conéctese con él en su empresa o sitio web personal, Twitter o LinkedIn.