Mempelajari Cara Mengoperasikan VUI dengan Mengajukan Pertanyaan yang Tepat

Diterbitkan: 2019-06-20

Catatan Editor: Adrien Schmidt adalah seorang pengusaha, insinyur, dan inovator yang diakui secara internasional. Pada tahun 2015 ia mendirikan Aristoteles oleh Bouquet.ai, sebuah perusahaan perangkat lunak perusahaan yang memberikan asisten analitik suara pribadi untuk mengubah analitik data menjadi percakapan yang bermakna. Pikiran dan pendapat yang diungkapkan dalam komentar ini adalah miliknya sendiri.

***

Ilmu di balik antarmuka pengguna grafis disetel dengan baik – hasil dari hampir tiga dekade desain, pengembangan, dan pengujian. Antarmuka pengguna suara, di sisi lain, sangat baru, mencapai arus utama hanya 7 tahun yang lalu, dalam rilis iOS 5 untuk iPhone 4S. Dalam waktu kurang dari satu dekade, suara telah menjadi ekosistem tersendiri, didorong oleh pertumbuhan eksplosif, tidak hanya dengan kehadirannya di mana-mana di perangkat seluler, tetapi dengan puluhan juta perangkat rumah yang dijual setiap tahun oleh Amazon, Google, dan beberapa lainnya.

Untuk pengembang VUI yang menangani bentuk baru pencarian dan keterlibatan perangkat lunak ini, teknologi ini mewakili pertemuan fiksi ilmiah dan keterbatasan AI modern – puncak dari lebih dari lima puluh tahun mimpi dan eksperimen. Jadi, tidak mengherankan jika pengguna dan pengembang masih mempelajari seperti apa VUI dan bagaimana seharusnya beroperasi.

Pertanyaan apa yang harus diajukan pengguna untuk mendapatkan jawaban yang mereka butuhkan? perintah mana yang harus mereka berikan untuk memicu tindakan yang mereka inginkan? Itulah pertanyaan terbesar dan paling mendesak yang saat ini dihadapi industri. Saat VUI meningkat dan disederhanakan, apa yang akan ditanyakan pengguna dan bagaimana mereka akan berkomunikasi di tahun-tahun mendatang?

Apa yang Harus Dipahami AI?

Tantangan antarmuka pengguna suara adalah bahwa ia bergantung pada dialog dan pemicu, isyarat, dan bahasa sehari-hari yang unik untuk hampir setiap individu yang akan menggunakan perangkat lunak Anda. Ia memiliki aturan dan harus dilatih untuk menanggapi pola bicara tertentu, diucapkan dengan cara tertentu.

Semakin fleksibel Anda membuat antarmuka, semakin banyak pelatihan yang dibutuhkan dan rawan kesalahan. Semakin tidak fleksibel, semakin frustasi bagi pengguna. Jadi perlu ada keseimbangan yang baik di sini tentang apa yang akan dipahami AI dan apa yang menjadi tanggung jawab pengguna.

Kami memilih untuk menempatkan dialog sebagai inti dari desain kami, sehingga sistem memperbarui konteks pada aliran pertanyaan dan tanggapan. Ini memungkinkan kita fokus pada pertanyaan yang lebih sederhana. Ada perbedaan besar dengan Penelusuran karena kami sudah terbiasa sejak Google. Alih-alih menempatkan semua kata kunci dalam satu ucapan, yang rumit dengan Suara dan menciptakan kebingungan untuk NLP, kami memilih dialog dan tindak lanjut sebagai cara untuk memecah pertanyaan kompleks menjadi sub-pertanyaan yang lebih kecil yang lebih mudah untuk diungkapkan. dan untuk memahami.

Mengkomunikasikan Batasan dan Harapan kepada Pengguna Akhir

Dalam pengertian tradisional, desain adalah proses yang sangat terlibat yang bergantung secara luas pada keahlian dan pengalaman para desainer, dikombinasikan dengan pengujian dan eksperimen yang ditargetkan dengan pengguna. Dengan VUI, ini sedikit berbeda. Ada lebih sedikit praktik terbaik yang ditetapkan tentang cara kerja VUI, dan yang terpenting sistemnya adalah pembelajaran mandiri. Itu mengubah proses desain menjadi sesuatu di mana algoritme memainkan peran yang lebih besar, misalnya, untuk menentukan bagaimana mempertimbangkan umpan balik pengguna, ucapan baru, sinonim baru, dll.

Anda perlu merancang produk Anda untuk menangkap data yang tepat untuk dipelajari dari pengguna Anda sebanyak mungkin, yang berarti pengulangan yang hampir tak terbatas di berbagai hambatan teknologi yang berbeda – dari pemahaman inti AI tentang pengguna hingga cara Anda meminta pengguna masukan dan tanggapan yang Anda terima.

Pada saat yang sama, sistem perlu mengkomunikasikan kepada pengguna apa yang dibutuhkan. Jika Anda pernah menggunakan Echo, Anda tahu Alexa meminta respons terperinci, sering kali berlebihan untuk pengguna yang sudah ada. Ini disengaja dan penting karena memberi tahu pengguna dengan tepat apa yang dibutuhkan sambil mengurangi frekuensi di mana orang mungkin "terjebak" mengulangi pertanyaan yang sama dalam bentuk yang berbeda.

Sangat menggoda untuk menggunakan pohon dialog karena kesamaannya dengan diagram alur UX – mencoba mencocokkan aliran alami ucapan manusia ketika sebuah pertanyaan diajukan. Sementara desainer dapat menyimpulkan sampai tingkat tertentu, banyak dari ini sebenarnya tidak berguna dalam percakapan bahasa alami. Memprediksi apa yang akan ditanyakan pengguna adalah proses yang menantang yang membutuhkan ukuran seni dan sains yang setara. Jika dilakukan dengan benar, Anda akan membangun sistem yang seimbang secara hati-hati yang dapat menangani maksud pengguna yang semakin halus dan mengarahkan mereka ke arah yang benar menuju informasi yang mereka cari.

Langkah Selanjutnya untuk Algoritma VUI

Tahap alami berikutnya untuk antarmuka suara adalah jenis kedewasaan yang telah kita lihat di beberapa teknologi lain – kemampuan perangkat untuk mengenali dan berinteraksi dengan pengguna dan mempertimbangkan "konteks" mereka: lokasi, rapat mendatang, pesan terbaru, kebiasaan, dll. Tantangannya tidak hanya teknis, tetapi juga masalah mendapatkan kepercayaan pengguna bahwa kami tidak mengganggu privasi mereka dengan melihat data mereka. Ini dimungkinkan dengan pemrosesan di perangkat, di mana algoritme berjalan secara lokal di perangkat dan tidak membagikan informasi dengan penyedia layanan atau produsen perangkat.

Ini tidak hanya akan membuat sistem lebih mudah digunakan di mana pun pengguna berada, tetapi juga memungkinkan sistem menjadi lebih pintar, memanfaatkan teknologi pembelajaran mesin untuk mulai menyimpulkan lebih banyak informasi dari pengguna berdasarkan suasana hati, nada suara, konteks, dan kata mereka. pilihan. Kami masih beberapa waktu lagi untuk mewujudkannya, tetapi investasi dan perhatian terhadap detail dalam interaksi pengguna dalam sistem ini akan membantu membuat kami lebih dekat.

Ada keseimbangan zen yang cermat antara pembelajaran AI dari apa yang diminta pengguna dan pengguna mempelajari apa yang diminta untuk mendapatkan sesuatu dari antarmuka suara. Keseimbangan akan terus bergeser ke arah AI karena sistem menjadi lebih pintar dan lebih banyak tersedia di mana-mana, tetapi untuk saat ini, desainer harus menyadari masalah ini dan membangun aplikasi yang sesuai.

***

Adrien Schmidt adalah seorang insinyur, pembicara, dan pengusaha yang diakui secara internasional. Dia adalah CEO dan Co-Founder Aristoteles oleh Bouquet.ai, sebuah perusahaan perangkat lunak perusahaan di San Francisco, CA, yang memberikan asisten analitik suara pribadi untuk mengubah analitik data menjadi percakapan yang bermakna. Sebagai pemimpin pemikiran di bidang AI/Voice, karyanya dapat ditemukan di publikasi besar seperti Forbes, Inc, HuffPo, dan B2C. Dia terdaftar di Inc. sebagai AI Entrepreneur to Watch dan telah berbicara di acara-acara seperti Web Summit, Collision, Conversational Interaction, VOICE Summit, dan P&G Data Analytics Summit. Terhubung dengannya di perusahaan atau situs web pribadinya, Twitter, atau LinkedIn.