Изучение того, как работать с VUI, задавая правильные вопросы

Опубликовано: 2019-06-20

Примечание редактора: Адриен Шмидт — всемирно известный предприниматель, инженер и новатор. В 2015 году он стал соучредителем Aristotle by Bouquet.ai, компании-разработчика корпоративного программного обеспечения, которая предоставляет персонального помощника по голосовой аналитике для преобразования анализа данных в содержательный разговор. Мысли и мнения, выраженные в этом комментарии, являются его собственными.

***

Наука, стоящая за графическими пользовательскими интерфейсами, тщательно отлажена — результат почти трех десятилетий проектирования, разработки и тестирования. С другой стороны, голосовые пользовательские интерфейсы невероятно новы и стали массовыми всего 7 лет назад, в версии iOS 5 для iPhone 4S. Менее чем за десятилетие голосовая связь превратилась в самостоятельную экосистему, движимую взрывным ростом, не только благодаря повсеместному присутствию в мобильных устройствах, но и десяткам миллионов домашних устройств, продаваемых каждый год Amazon, Google и некоторыми другими компаниями.

Для разработчиков VUI, которые занимаются этой новой формой поиска и взаимодействия с программным обеспечением, эта технология представляет собой слияние научной фантастики и современных ограничений ИИ — кульминацию более чем пятидесятилетних мечтаний и экспериментов. Поэтому неудивительно, что как пользователи, так и разработчики все еще изучают, как выглядит VUI и как он должен работать.

Какие вопросы должен задать пользователь, чтобы получить нужные ответы? какие команды они должны дать, чтобы вызвать нужные им действия? Это самый большой и самый насущный вопрос, стоящий в настоящее время перед отраслью. По мере улучшения и упрощения VUI, что будут спрашивать пользователи и как они будут общаться в ближайшие годы?

Что должен понимать ИИ?

Проблема голосового пользовательского интерфейса заключается в том, что он опирается на диалоги и триггеры, реплики и разговорные выражения, которые уникальны почти для каждого человека, который будет использовать ваше программное обеспечение. У него есть правила, и его нужно научить реагировать на определенные модели речи, произнесенные определенным образом.

Чем более гибким вы сделаете свой интерфейс, тем большего обучения он потребует и тем более подверженным ошибкам станет. Чем он менее гибок, тем больше он будет раздражать пользователя. Поэтому здесь должен быть точный баланс между тем, что понимает ИИ, и тем, за что отвечает пользователь.

Мы решили поместить диалог в основу нашего дизайна, чтобы система обновляла контекст в потоке вопросов и ответов. Это позволяет нам сосредоточиться на более простых вопросах. Это большая разница с поиском, поскольку мы привыкли к нему со времен Google. Вместо того, чтобы помещать все ключевые слова в одно высказывание, что усложняется с помощью Голоса и создает путаницу для НЛП, мы выбрали диалоги и последующие действия как способ разбить сложный вопрос на более мелкие подвопросы, которые легче сформулировать. и понять.

Сообщение об ограничениях и ожиданиях конечному пользователю

В традиционном смысле проектирование — это очень сложный процесс, который во многом зависит от знаний и опыта дизайнеров в сочетании с целевым тестированием и экспериментами с пользователями. С VUI все немного иначе. Существует меньше лучших практик в отношении того, как должен работать VUI, и, что наиболее важно, система является самообучающейся. Это превращает процесс проектирования в нечто, где алгоритмы играют более важную роль, например, для определения того, как учитывать отзывы пользователей, новые высказывания, новые синонимы и т. д.

Вам нужно будет спроектировать свой продукт так, чтобы он собирал правильные данные, чтобы учиться у ваших пользователей как можно больше, что означает почти безграничную итерацию по целому ряду различных технологических барьеров — от основного понимания пользователя ИИ до способов, которыми вы подсказываете пользователю. ввод и ответы, которые вы получаете.

В то же время система должна сообщать пользователю, что ему нужно. Если вы когда-либо использовали Echo, вы знаете, что Alexa предлагает подробные ответы, часто избыточные для существующих пользователей. Это сделано намеренно и важно, так как сообщает пользователю, что именно ему нужно, и снижает частоту, с которой люди могут «застрять», повторяя один и тот же вопрос в разных формах.

Заманчиво использовать деревья диалогов из-за их сходства с блок-схемами UX — попытка соответствовать естественному потоку человеческой речи, когда задается вопрос. Хотя дизайнеры могут до некоторой степени делать выводы, большая часть этого на самом деле бесполезна в разговоре на естественном языке. Прогнозирование того, что спросит пользователь, — сложный процесс, требующий равных усилий искусства и науки. Если все сделано правильно, вы создадите тщательно сбалансированную систему, которая сможет обрабатывать все более тонкие намерения пользователей и направлять их в правильном направлении к информации, которую они ищут.

Следующий шаг для алгоритмов VUI

Следующим естественным этапом для голосовых интерфейсов является тот вид зрелости, который мы уже наблюдаем в некоторых других технологиях — способность устройств распознавать пользователей и взаимодействовать с ними, а также учитывать их «контекст»: местоположение, предстоящие встречи, последние сообщения, привычки и т. д. Задача не только техническая, но и вопрос доверия пользователей к тому, что мы не вторгаемся в их частную жизнь, просматривая их данные. Это возможно при обработке на устройстве, когда алгоритмы работают локально на устройстве и не передают информацию поставщику услуг или производителю устройства.

Это не только упростит использование систем, где бы ни находился пользователь, но и позволит системе стать умнее, используя технологии машинного обучения, чтобы начать получать больше информации от пользователей в зависимости от их настроения, тона голоса, контекста и слов. выбор. Мы все еще далеки от того, чтобы это стало реальностью, но инвестиции и внимание к деталям во взаимодействии с пользователем в этих системах помогут нам приблизиться к этому.

Существует тщательный дзен-баланс между обучением ИИ на том, что спрашивает пользователь, и обучением пользователя тому, что спрашивать, чтобы получить что-то от голосового интерфейса. Баланс будет по-прежнему смещаться в сторону ИИ по мере того, как системы станут умнее и все более распространенными, но на данный момент дизайнеры должны осознавать эту проблему и создавать соответствующие приложения.

***

Адриан Шмидт — всемирно известный инженер, спикер и предприниматель. Он является генеральным директором и соучредителем Aristotle by Bouquet.ai, компании-разработчика корпоративного программного обеспечения в Сан-Франциско, Калифорния, которая предоставляет персонального помощника по голосовой аналитике для преобразования анализа данных в содержательную беседу. Его работу как идейного лидера в области искусственного интеллекта/голоса можно найти в крупных изданиях, таких как Forbes, Inc, HuffPo и B2C. Он внесен в список Inc. как предприниматель в области ИИ, за которым стоит следить, и выступал на таких мероприятиях, как Web Summit, Collision, Conversational Interaction, VOICE Summit и P&G Data Analytics Summit. Свяжитесь с ним на его корпоративном или личном веб-сайте, в Twitter или LinkedIn.