適切な質問をしてVUIを操作する方法を学ぶ

公開: 2019-06-20

編集者注:エイドリアンシュミットは、国際的に認められた起業家、エンジニア、革新者です。 2015年に、彼は、データ分析を意味のある会話に変換するための個人用音声分析アシスタントを提供するエンタープライズソフトウェア会社であるBouquet.aiによってAristotleを共同設立しました。 この解説で表明された考えや意見は彼自身のものです。

***

グラフィックユーザーインターフェイスの背後にある科学は細かく調整されています。これは、30年近くにわたる設計、開発、およびテストの結果です。 一方、音声ユーザーインターフェイスは非常に新しく、わずか7年前にiPhone4S用のiOS5リリースで主流になりました。 10年足らずで、音声はそれ自体がエコシステムになりました。これは、モバイルデバイスでのユビキタスな存在だけでなく、Amazon、Google、その他の数千万台の家庭用デバイスで毎年販売されている爆発的な成長によって推進されています。

この新しい形式の検索とソフトウェアエンゲージメントに取り組んでいるVUI開発者にとって、このテクノロジーは、サイエンスフィクションと現代のAIの制限の合流点であり、50年以上の夢と実験の集大成です。 したがって、ユーザーと開発者が同様にVUIがどのように見えるか、そしてそれがどのように動作するかをまだ学んでいることは驚くべきことではありません。

必要な答えを得るために、ユーザーはどのような質問をする必要がありますか? 必要なアクションをトリガーするために、どのコマンドを実行する必要がありますか? これは、現在業界が直面している最大かつ最も差し迫った問題です。 VUIが改善され、合理化されるにつれて、ユーザーは何を求め、今後数年間でどのようにコミュニケーションをとるのでしょうか。

AIは何を理解する必要がありますか?

音声ユーザーインターフェイスの課題は、ソフトウェアを使用するほぼすべての個人に固有の対話とトリガー、手がかり、および口語表現に依存していることです。 それには規則があり、特定の方法で話される特定の発話パターンに対応するように訓練されなければなりません。

インターフェイスの柔軟性が高いほど、必要なトレーニングが増え、エラーが発生しやすくなります。 柔軟性が低いほど、ユーザーにとっては苛立たしいものになります。 したがって、ここではAIが理解することと、ユーザーが責任を負うことのバランスをとる必要があります。

システムが質問と回答の流れに関するコンテキストを更新するように、設計の中心に対話を配置することを選択しました。 これにより、より簡単な質問に集中できます。 私たちがグーグル以来それに慣れているので、それは検索との大きな違いです。 音声が複雑でNLPが混乱する単一の発話にすべてのキーワードを配置する代わりに、複雑な質問をより簡単に表現できる小さなサブ質問に分割する方法として、ダイアログとフォローアップを選択しました。と理解する。

制限と期待をエンドユーザーに伝える

従来の意味では、設計は、設計者の専門知識と経験に大きく依存する非常に複雑なプロセスであり、ユーザーを対象としたテストと実験が組み合わされています。 VUIの場合、これは少し異なります。 VUIがどのように機能するかについて確立されたベストプラクティスは少なく、最も重要なのは、システムが自己学習型であるということです。 これにより、設計プロセスは、たとえば、ユーザーフィードバック、新しい発話、新しい同義語などをどのように考慮するかを決定するために、アルゴリズムがより大きな役割を果たすものに変わります。

ユーザーからできるだけ多くのことを学ぶために適切なデータをキャプチャするように製品を設計する必要があります。つまり、コアAIによるユーザーの理解からユーザーへのプロンプトの方法まで、さまざまな技術的障壁を越えてほぼ無制限に反復することを意味します。入力とあなたが受け取る応答。

同時に、システムは必要なものをユーザーに伝える必要があります。 Echoを使用したことがある場合は、Alexaが詳細な応答を要求することをご存知でしょう。多くの場合、既存のユーザーに対して冗長になります。 これは意図的で重要です。これは、ユーザーが同じ質問をさまざまな形式で繰り返す「行き詰まる」頻度を減らしながら、必要なものを正確にユーザーに伝えるためです。

UXフローチャートと類似しているため、ダイアログツリーを使用するのは魅力的です。質問があったときに人間の発話の自然な流れに一致させようとします。 設計者はある程度推測できますが、これの多くは自然言語の会話では実際には役に立ちません。 ユーザーが何を尋ねるかを予測することは、芸術と科学の同等の尺度を必要とする挑戦的なプロセスです。 適切に行われると、慎重にバランスの取れたシステムを構築し、ますます微妙なユーザーの意図を処理し、ユーザーが求める情報に向けて正しい方向に動かすことができます。

VUIアルゴリズムの次のステップ

音声インターフェースの次の自然な段階は、他のいくつかのテクノロジーですでに見られる成熟度です。デバイスがユーザーを認識して対話し、ユーザーの「コンテキスト」(場所、今後の会議、最近のメッセージ、習慣など)を考慮に入れる機能です。 。課題は技術的なものであるだけでなく、ユーザーのデータを見てプライバシーを侵害していないというユーザーの信頼を得るという問題でもあります。 これは、アルゴリズムがデバイス上でローカルに実行され、サービスプロバイダーやデバイスメーカーと情報を共有しないオンデバイス処理で可能です。

これにより、ユーザーがどこにいてもシステムを使いやすくするだけでなく、機械学習テクノロジーを活用して、気分、声のトーン、コンテキスト、単語に基づいてユーザーからより多くの情報を推測し始めることで、システムをよりスマートにすることができます。選択。 これが現実になるまでにはまだしばらく時間がかかりますが、これらのシステム内でのユーザーインタラクションの詳細への投資と注意は、私たちをはるかに近づけるのに役立ちます。

ユーザーが求めるものからAIを学習することと、音声インターフェイスから何かを得るために何を求めるかを学習するユーザーとの間には、慎重な禅のバランスがあります。 システムがよりスマートになり、ユビキタスになるにつれて、バランスはAIにシフトし続けますが、今のところ、設計者はこの問題を認識し、それに合わせてアプリケーションを構築する必要があります。

***

Adrien Schmidtは、国際的に認められたエンジニア、講演者、起業家です。 彼は、カリフォルニア州サンフランシスコにあるエンタープライズソフトウェア会社であるBouquet.aiによるAristotleのCEO兼共同創設者であり、データ分析を意味のある会話に変換するための個人的な音声分析アシスタントを提供しています。 AI / Voice分野の思想的リーダーとして、彼の作品はForbes、Inc、HuffPo、B2Cなどの主要な出版物に掲載されています。 彼は、ウォッチするAI起業家としてInc.にリストされており、Webサミット、衝突、会話型インタラクション、VOICEサミット、P&Gデータ分析サミットなどのイベントで講演を行ってきました。 彼の会社または個人のWebサイト、Twitter、またはLinkedInで彼とつながりましょう。