Doğru Soruları Sorarak Bir VUI'nin Nasıl Çalıştırılacağını Öğrenmek

Yayınlanan: 2019-06-20

Editörün Notu: Adrien Schmidt, uluslararası alanda tanınan bir girişimci, mühendis ve yenilikçidir. 2015 yılında, veri analitiğini anlamlı bir sohbete dönüştürmek için kişisel bir sesli analiz asistanı sunan kurumsal bir yazılım şirketi olan Aristotle by Bouquet.ai'nin kurucu ortağı oldu. Bu yorumda ifade edilen düşünce ve görüşler kendisine aittir.

***

Grafik kullanıcı arayüzlerinin ardındaki bilim, yaklaşık otuz yıllık tasarım, geliştirme ve testlerin sonucu olarak hassas bir şekilde ayarlanmıştır. Öte yandan, sesli kullanıcı arayüzleri inanılmaz derecede yenidir ve yalnızca 7 yıl önce iPhone 4S için iOS 5 sürümünde ana akıma ulaşmıştır. On yıldan kısa bir süre içinde ses, yalnızca mobil cihazlarda her yerde bulunmasıyla değil, Amazon, Google ve diğerleri tarafından her yıl satılan on milyonlarca ev cihazıyla da patlayıcı büyümenin yönlendirdiği kendi başına bir ekosistem haline geldi.

Bu yeni arama ve yazılım etkileşimi biçimiyle uğraşan VUI geliştiricileri için teknoloji, bilim kurgu ve modern AI sınırlamalarının bir karışımını temsil ediyor - elli yıldan fazla hayal ve deneylerin doruk noktası. Bu nedenle, hem kullanıcıların hem de geliştiricilerin bir VUI'nin neye benzediğini ve nasıl çalışması gerektiğini hâlâ öğrenmeleri şaşırtıcı değil.

Bir kullanıcı ihtiyaç duyduğu cevapları almak için hangi soruları sormalıdır? istedikleri eylemleri tetiklemek için hangi komutları vermeleri gerekir? Bu, şu anda endüstrinin karşı karşıya olduğu en büyük ve en acil soru. VUI'ler geliştikçe ve akıcı hale geldikçe, kullanıcılar gelecek yıllarda ne soracak ve nasıl iletişim kuracaklar?

Yapay Zeka Ne Anlamalı?

Sesli kullanıcı arabiriminin zorluğu, diyaloğa ve yazılımınızı kullanacak hemen hemen her bireye özgü tetikleyicilere, ipuçlarına ve konuşma diline dayanmasıdır. Kuralları vardır ve belirli şekillerde konuşulan belirli konuşma kalıplarına yanıt vermek üzere eğitilmelidir.

Arayüzünüzü ne kadar esnek hale getirirseniz, o kadar fazla eğitim gerektirecek ve hataya açık hale gelecektir. Ne kadar az esnek olursa, kullanıcı için o kadar sinir bozucu olur. Dolayısıyla burada yapay zekanın neyi anlayacağı ve kullanıcının nelerden sorumlu olduğu konusunda iyi bir denge olması gerekiyor.

Diyalogu tasarımımızın merkezine yerleştirmeyi seçtik, öyle ki sistem, soru ve yanıtların akışıyla ilgili bir bağlamı güncelliyor. Bu, daha basit sorulara odaklanmamızı sağlar. Google'dan beri alıştığımız için Arama ile büyük bir fark var. Tüm anahtar kelimeleri, Voice ile karmaşık olan ve NLP için kafa karışıklığı yaratan tek bir ifadeye yerleştirmek yerine, karmaşık bir soruyu daha küçük alt sorulara bölmenin bir yolu olarak diyalogları ve takipleri seçtik ve daha kolay ifade edildi. ve anlamak için.

Sınırlamaları ve Beklentileri Son Kullanıcıya İletmek

Geleneksel anlamda tasarım, büyük ölçüde tasarımcıların uzmanlığına ve deneyimine dayanan, hedeflenen testler ve kullanıcılarla yapılan deneylerle birleştirilmiş, yoğun bir şekilde ilgili bir süreçtir. Bir VUI ile bu biraz farklıdır. VUI'nin nasıl çalışması gerektiğine dair daha az sayıda en iyi uygulama var ve en önemlisi sistem kendi kendine öğreniyor. Bu, tasarım sürecini, örneğin kullanıcı geri bildirimlerini, yeni ifadeleri, yeni eş anlamlıları vb. nasıl hesaba katacağını belirlemek için algoritmaların daha büyük bir rol oynadığı bir şeye dönüştürür.

Ürününüzü, kullanıcılarınızdan mümkün olduğunca çok şey öğrenmek için doğru verileri yakalayacak şekilde tasarlamanız gerekecek; bu, temel yapay zekanın kullanıcıyı anlamasından kullanıcıyı yönlendirme yollarına kadar bir dizi farklı teknolojik engelde neredeyse sınırsız yineleme anlamına gelir. giriş ve aldığınız yanıtlar.

Aynı zamanda, sistemin ihtiyaç duyduğu şeyi kullanıcıya iletmesi gerekir. Daha önce bir Yankı kullandıysanız, Alexa'nın mevcut kullanıcılar için çoğu zaman gereksiz olarak ayrıntılı yanıtlar istediğini bilirsiniz. Bu kasıtlı ve önemlidir, çünkü aynı soruyu farklı şekillerde tekrarlayan insanların “takılıp kalma” sıklığını azaltırken, kullanıcıya tam olarak neye ihtiyaç olduğunu söyler.

Bir soru sorulduğunda insan konuşmasının doğal akışını eşleştirmeye çalışan UX akış çizelgelerine benzerlikleri nedeniyle diyalog ağaçlarını kullanmak caziptir. Tasarımcılar bir dereceye kadar çıkarımlarda bulunabilse de, bunların çoğu aslında doğal bir dil konuşmasında işe yaramaz. Bir kullanıcının ne soracağını tahmin etmek, eşit sanat ve bilim ölçüleri gerektiren zorlu bir süreçtir. Düzgün yapıldığında, giderek daha incelikli kullanıcı amaçlarını işleyebilen ve onları aradıkları bilgilere doğru doğru yönde hareket ettirebilen, dikkatli bir şekilde dengelenmiş bir sistem oluşturacaksınız.

VUI Algoritmaları için Sonraki Adım

Ses arayüzleri için bir sonraki doğal aşama, diğer birçok teknolojide halihazırda gördüğümüz olgunluk türüdür – cihazların kullanıcıları tanıma ve onlarla etkileşim kurma ve onların “bağlamını” hesaba katma yeteneği: konum, yaklaşan toplantılar, son mesajlar, alışkanlıklar vb. Zorluk sadece teknik değil, aynı zamanda kullanıcıların verilerine bakarak gizliliklerini ihlal etmediğimize dair güvenini kazanma meselesidir. Bu, algoritmaların cihazda yerel olarak çalıştığı ve servis sağlayıcı veya cihaz üreticisi ile hiçbir bilgi paylaşmadığı cihaz üzerinde işleme ile mümkündür.

Bu, yalnızca bir kullanıcının nerede olursa olsun sistemlerin kullanımını kolaylaştırmakla kalmayacak, aynı zamanda sistemin daha akıllı hale gelmesine, makine öğrenimi teknolojilerinden yararlanarak kullanıcılardan ruh hallerine, ses tonlarına, bağlamlara ve kelimelere göre daha fazla miktarda bilgi çıkarmaya başlamasına olanak tanıyacak. seçim. Bunun gerçeğe dönüşmesine hala biraz zaman var, ancak bu sistemlerdeki kullanıcı etkileşimine yapılan yatırım ve ayrıntılara gösterilen özen, bizi daha da yakınlaştırmamıza yardımcı olacak.

AI'nın bir kullanıcının sorduğundan öğrenmesi ile kullanıcının bir sesli arayüzden bir şey elde etmek için ne isteyeceğini öğrenmesi arasında dikkatli bir zen dengesi vardır. Sistemler daha akıllı ve daha yaygın hale geldikçe denge yapay zekaya doğru kaymaya devam edecek, ancak şimdilik tasarımcıların bu sorunun farkında olması ve buna uygun uygulamalar oluşturması gerekiyor.

***

Adrien Schmidt uluslararası alanda tanınan bir mühendis, konuşmacı ve girişimcidir. San Francisco, CA'da bulunan ve veri analitiğini anlamlı sohbetlere dönüştürmek için kişisel bir sesli analiz asistanı sunan bir kurumsal yazılım şirketi olan Aristotle by Bouquet.ai'nin CEO'su ve Kurucu Ortağıdır. AI/Voice alanında bir düşünce lideri olarak, çalışmaları Forbes, Inc, HuffPo ve B2C gibi büyük yayınlarda bulunabilir. Inc.'de İzlenecek bir Yapay Zeka Girişimcisi olarak listelenmiştir ve Web Zirvesi, Çarpışma, Konuşma Etkileşimi, VOICE Zirvesi ve P&G Veri Analitiği Zirvesi gibi etkinliklerde konuşmalar yapmıştır. Onunla şirketinde veya kişisel web sitesinde, Twitter'da veya LinkedIn'de bağlantı kurun.