เรียนรู้วิธีการใช้งาน VUI โดยการถามคำถามที่ถูกต้อง

เผยแพร่แล้ว: 2019-06-20

หมายเหตุบรรณาธิการ: Adrien Schmidt เป็นผู้ประกอบการ วิศวกร และผู้ริเริ่มที่เป็นที่ยอมรับในระดับสากล ในปี 2015 เขาได้ร่วมก่อตั้ง Aristotle โดย Bouquet.ai ซึ่งเป็นบริษัทซอฟต์แวร์ระดับองค์กรที่ให้บริการผู้ช่วยวิเคราะห์เสียงส่วนบุคคลเพื่อแปลงการวิเคราะห์ข้อมูลให้เป็นการสนทนาที่มีความหมาย ความคิดและความคิดเห็นที่แสดงในความเห็นนี้เป็นของเขาเอง

***

วิทยาศาสตร์ที่อยู่เบื้องหลังส่วนต่อประสานกราฟิกกับผู้ใช้นั้นได้รับการปรับแต่งอย่างประณีต ซึ่งเป็นผลมาจากการออกแบบ การพัฒนา และการทดสอบเกือบสามทศวรรษ ในทางกลับกัน อินเทอร์เฟซผู้ใช้ด้วยเสียงนั้นใหม่อย่างไม่น่าเชื่อ ซึ่งเข้าถึงกระแสหลักเมื่อ 7 ปีที่แล้วใน iOS 5 ที่วางจำหน่ายสำหรับ iPhone 4S ภายในเวลาไม่ถึงทศวรรษ เสียงได้กลายเป็นระบบนิเวศสำหรับตัวเอง ซึ่งได้รับแรงหนุนจากการเติบโตอย่างรวดเร็ว ไม่ใช่แค่มีอยู่ทั่วไปในอุปกรณ์พกพา แต่ด้วยอุปกรณ์ภายในบ้านหลายสิบล้านเครื่องที่จำหน่ายโดย Amazon, Google และอีกมากมายในแต่ละปี

สำหรับนักพัฒนา VUI ที่กำลังจัดการกับรูปแบบใหม่ของการค้นหาและการมีส่วนร่วมของซอฟต์แวร์ เทคโนโลยีนี้แสดงให้เห็นถึงการบรรจบกันของนิยายวิทยาศาสตร์และข้อจำกัดด้าน AI สมัยใหม่ ซึ่งเป็นจุดสุดยอดของความฝันและการทดลองมากกว่าห้าสิบปี ดังนั้นจึงไม่น่าแปลกใจที่ผู้ใช้และนักพัฒนายังคงเรียนรู้ว่า VUI เป็นอย่างไรและควรทำงานอย่างไร

ผู้ใช้ควรถามคำถามใดเพื่อให้ได้คำตอบที่ต้องการ พวกเขาควรให้คำสั่งใดเพื่อกระตุ้นการกระทำที่พวกเขาต้องการ นั่นเป็นคำถามที่ใหญ่ที่สุดและเร่งด่วนที่สุดที่อุตสาหกรรมกำลังเผชิญอยู่ เมื่อ VUI ปรับปรุงและคล่องตัว ผู้ใช้จะถามอะไรและจะสื่อสารอย่างไรในปีต่อๆ ไป

AI ควรเข้าใจอะไร?

ความท้าทายของอินเทอร์เฟซผู้ใช้แบบใช้เสียงคือต้องอาศัยบทสนทนาและตัวกระตุ้น การชี้นำ และการใช้ภาษาพูดที่มีเอกลักษณ์เฉพาะสำหรับแทบทุกคนที่จะใช้ซอฟต์แวร์ของคุณ มันมีกฎเกณฑ์และต้องได้รับการฝึกฝนให้ตอบสนองต่อรูปแบบการพูดบางรูปแบบการพูดในลักษณะที่แน่นอน

ยิ่งคุณสร้างอินเทอร์เฟซได้ยืดหยุ่นมากเท่าไร การฝึกอบรมก็จะยิ่งต้องการมากขึ้นและมีแนวโน้มที่จะเกิดข้อผิดพลาดได้ง่าย ยิ่งมีความยืดหยุ่นน้อยเท่าไร ผู้ใช้ก็จะยิ่งหงุดหงิดมากขึ้นเท่านั้น ดังนั้นจึงจำเป็นต้องมีความสมดุลที่ดีว่า AI จะเข้าใจอะไรและผู้ใช้มีหน้าที่รับผิดชอบอย่างไร

เราเลือกที่จะใส่บทสนทนาที่แกนหลักของการออกแบบ เพื่อให้ระบบอัปเดตบริบทเกี่ยวกับการไหลของคำถามและคำตอบ ซึ่งช่วยให้เรามุ่งความสนใจไปที่คำถามง่ายๆ มากขึ้น การค้นหามีความแตกต่างอย่างมากเนื่องจากเราคุ้นเคยตั้งแต่ Google แทนที่จะใส่คีย์เวิร์ดทั้งหมดด้วยคำพูดเดียวซึ่งซับซ้อนด้วยเสียงและสร้างความสับสนให้กับ NLP เราเลือกการสนทนาและการติดตามผลเพื่อแยกคำถามที่ซับซ้อนออกเป็นคำถามย่อยที่มีขนาดเล็กลงซึ่งง่ายต่อการใช้วลี และเพื่อให้เข้าใจ

การสื่อสารข้อจำกัดและความคาดหวังต่อผู้ใช้ปลายทาง

ในความหมายดั้งเดิม การออกแบบเป็นกระบวนการที่เกี่ยวข้องอย่างมากซึ่งต้องอาศัยความเชี่ยวชาญและประสบการณ์ของนักออกแบบอย่างกว้างขวาง รวมกับการทดสอบที่ตรงเป้าหมายและการทดลองกับผู้ใช้ ด้วย VUI สิ่งนี้แตกต่างออกไปเล็กน้อย มีแนวทางปฏิบัติที่ดีที่สุดน้อยกว่าในวิธีที่ VUI ควรทำงาน และที่สำคัญที่สุดคือระบบคือการเรียนรู้ด้วยตนเอง ซึ่งจะเปลี่ยนขั้นตอนการออกแบบให้กลายเป็นสิ่งที่อัลกอริทึมมีบทบาทมากขึ้น ตัวอย่างเช่น เพื่อกำหนดวิธีพิจารณาความคิดเห็นของผู้ใช้ คำพูดใหม่ คำพ้องความหมายใหม่ เป็นต้น

คุณจะต้องออกแบบผลิตภัณฑ์ของคุณเพื่อเก็บข้อมูลที่ถูกต้องเพื่อเรียนรู้จากผู้ใช้ของคุณให้มากที่สุด ซึ่งหมายถึงการทำซ้ำเกือบไร้ขีดจำกัดผ่านอุปสรรคทางเทคโนโลยีที่หลากหลาย ตั้งแต่ความเข้าใจหลักของ AI ที่มีต่อผู้ใช้ไปจนถึงวิธีที่คุณแจ้งผู้ใช้ ข้อมูลเข้าและคำตอบที่คุณได้รับ

ในขณะเดียวกัน ระบบจำเป็นต้องสื่อสารกับผู้ใช้ถึงสิ่งที่จำเป็น หากคุณเคยใช้ Echo คุณจะทราบดีว่า Alexa จะตอบกลับโดยละเอียด ซึ่งมักจะซ้ำซากสำหรับผู้ใช้ที่มีอยู่ นี่เป็นความตั้งใจและสำคัญ เนื่องจากจะแจ้งให้ผู้ใช้ทราบอย่างชัดเจนถึงสิ่งที่จำเป็น ในขณะที่ลดความถี่ที่ผู้คนอาจ "ติดขัด" ในการถามคำถามเดิมซ้ำในรูปแบบต่างๆ

เป็นเรื่องน่าดึงดูดใจที่จะใช้ไดอะล็อกทรีเนื่องจากมีความคล้ายคลึงกันกับแผนผังลำดับงานของ UX โดยพยายามจับคู่กระแสธรรมชาติของคำพูดของมนุษย์เมื่อมีการถามคำถาม แม้ว่านักออกแบบสามารถอนุมานได้ในระดับหนึ่ง แต่สิ่งนี้ส่วนใหญ่ไม่มีประโยชน์จริง ๆ ในการสนทนาด้วยภาษาที่เป็นธรรมชาติ การคาดการณ์ว่าผู้ใช้จะถามอะไรเป็นกระบวนการที่ท้าทายซึ่งต้องใช้การวัดผลทางศิลปะและวิทยาศาสตร์ที่เท่าเทียมกัน เมื่อทำอย่างถูกต้องแล้ว คุณจะสร้างระบบที่สมดุลอย่างระมัดระวัง ซึ่งสามารถรองรับความตั้งใจของผู้ใช้ที่ละเอียดอ่อนยิ่งขึ้น และเคลื่อนไปในทิศทางที่ถูกต้องไปยังข้อมูลที่พวกเขาต้องการ

ขั้นตอนต่อไปสำหรับอัลกอริทึม VUI

ขั้นต่อไปที่เป็นธรรมชาติสำหรับอินเทอร์เฟซด้วยเสียงคือความเป็นผู้ใหญ่ที่เราเห็นในเทคโนโลยีอื่นๆ อีกหลายอย่าง – ความสามารถของอุปกรณ์ในการจดจำและโต้ตอบกับผู้ใช้ และคำนึงถึง "บริบท" ของพวกเขา: สถานที่ การประชุมที่กำลังจะมีขึ้น ข้อความล่าสุด นิสัย ฯลฯ ความท้าทายไม่ใช่แค่ด้านเทคนิคเท่านั้น แต่ยังเป็นเรื่องของการได้รับความไว้วางใจจากผู้ใช้ด้วยว่าเราไม่ได้บุกรุกความเป็นส่วนตัวของพวกเขาด้วยการดูข้อมูลของพวกเขา สิ่งนี้เป็นไปได้ด้วยการประมวลผลในอุปกรณ์ โดยที่อัลกอริธึมทำงานบนอุปกรณ์และไม่เปิดเผยข้อมูลกับผู้ให้บริการหรือผู้ผลิตอุปกรณ์

สิ่งนี้จะไม่เพียงแต่ทำให้ระบบใช้งานง่ายขึ้นไม่ว่าผู้ใช้จะอยู่ที่ใดก็ตาม แต่ยังช่วยให้ระบบได้รับเทคโนโลยีการเรียนรู้ของเครื่องอย่างชาญฉลาดยิ่งขึ้นเพื่อเริ่มอนุมานข้อมูลจำนวนมากขึ้นจากผู้ใช้ตามอารมณ์ น้ำเสียง บริบท และคำพูด การเลือก เรายังเหลือเวลาอีกระยะหนึ่งที่สิ่งนี้จะกลายเป็นความจริง แต่การลงทุนและความใส่ใจในรายละเอียดในการโต้ตอบกับผู้ใช้ภายในระบบเหล่านี้จะช่วยให้เราใกล้ชิดกันมากขึ้น

มีความสมดุลระหว่างเซนอย่างระมัดระวังระหว่างการเรียนรู้ AI จากสิ่งที่ผู้ใช้ถามและผู้ใช้เรียนรู้ว่าจะขออะไรจากอินเทอร์เฟซเสียง ความสมดุลจะยังคงเปลี่ยนไปสู่ AI เมื่อระบบมีความชาญฉลาดและแพร่หลายมากขึ้น แต่สำหรับตอนนี้ นักออกแบบจำเป็นต้องรับรู้ถึงปัญหานี้และสร้างแอปพลิเคชันเพื่อให้เข้าคู่กัน

***

Adrien Schmidt เป็นวิศวกร นักพูด และผู้ประกอบการที่เป็นที่ยอมรับในระดับสากล เขาเป็น CEO และผู้ร่วมก่อตั้งของ Aristotle โดย Bouquet.ai ซึ่งเป็นบริษัทซอฟต์แวร์ระดับองค์กรในซานฟรานซิสโก รัฐแคลิฟอร์เนีย ที่ให้บริการผู้ช่วยวิเคราะห์เสียงส่วนบุคคลเพื่อแปลงการวิเคราะห์ข้อมูลเป็นการสนทนาที่มีความหมาย ในฐานะผู้นำทางความคิดในด้าน AI/Voice ผลงานของเขาสามารถพบได้ในสื่อสิ่งพิมพ์สำคัญๆ เช่น Forbes, Inc, HuffPo และ B2C เขามีชื่ออยู่ใน Inc. ในฐานะผู้ประกอบการด้าน AI ที่น่าจับตามอง และเคยพูดในงานต่างๆ เช่น Web Summit, Collision, Conversational Interaction, VOICE Summit และ P&G Data Analytics Summit ติดต่อกับเขาทางบริษัทหรือเว็บไซต์ส่วนตัว Twitter หรือ LinkedIn