تعلم كيفية تشغيل VUI عن طريق طرح الأسئلة الصحيحة

نشرت: 2019-06-20

ملاحظة المحرر: Adrien Schmidt هو رائد أعمال ومهندس ومبتكر معترف به دوليًا. في عام 2015 ، شارك في تأسيس Aristotle by Bouquet.ai ، وهي شركة برمجيات مؤسسية تقدم مساعد تحليل صوتي شخصي لتحويل تحليلات البيانات إلى محادثة هادفة. الأفكار والآراء الواردة في هذا التعليق هي أفكاره والآراء الخاصة به.

***

تم ضبط العلم وراء واجهات المستخدم الرسومية بدقة - نتيجة ما يقرب من ثلاثة عقود من التصميم والتطوير والاختبار. من ناحية أخرى ، تعد واجهات المستخدم الصوتي جديدة بشكل لا يصدق ، حيث وصلت إلى الاتجاه السائد منذ 7 سنوات فقط ، في إصدار iOS 5 لجهاز iPhone 4S. في أقل من عقد ، أصبح الصوت نظامًا بيئيًا في حد ذاته ، مدفوعًا بالنمو الهائل ، ليس فقط مع وجوده في كل مكان في الأجهزة المحمولة ، ولكن مع بيع عشرات الملايين من الأجهزة المنزلية كل عام بواسطة Amazon و Google والعديد من الأجهزة الأخرى

بالنسبة لمطوري VUI الذين يتعاملون مع هذا الشكل الجديد من البحث ومشاركة البرامج ، تمثل التكنولوجيا التقاء للخيال العلمي وقيود الذكاء الاصطناعي الحديثة - تتويجًا لأكثر من خمسين عامًا من الأحلام والتجارب. لذلك ، ليس من المستغرب أن المستخدمين والمطورين على حد سواء ما زالوا يتعلمون كيف تبدو واجهة المستخدم الرسومية وكيف يجب أن تعمل.

ما هي الأسئلة التي يجب على المستخدم طرحها للحصول على الإجابات التي يحتاجون إليها؟ ما هي الأوامر التي يجب أن يعطوها لبدء الإجراءات التي يريدونها؟ هذا هو السؤال الأكبر والأكثر إلحاحًا الذي يواجه الصناعة حاليًا. مع تحسن VUIs وتصبح مبسطة ، ما الذي سيسأله المستخدمون وكيف سيتواصلون في السنوات القادمة؟

ما الذي يجب أن يفهمه الذكاء الاصطناعي؟

يتمثل التحدي الذي تواجهه واجهة المستخدم الصوتية في أنها تعتمد على الحوار والمحفزات والإشارات والعامية الفريدة لكل فرد تقريبًا سيستخدم برنامجك. لديها قواعد ويجب تدريبها على الاستجابة لأنماط معينة من الكلام ، يتم التحدث بها بطرق معينة.

كلما جعلت واجهتك أكثر مرونة ، زاد التدريب الذي تتطلبه وستصبح عرضة للخطأ. كلما كانت أقل مرونة ، زادت إحباط المستخدم. لذلك يجب أن يكون هناك توازن دقيق هنا لما سيفهمه الذكاء الاصطناعي وما هو المستخدم مسؤول عنه.

لقد اخترنا وضع الحوار في صميم تصميمنا ، بحيث يقوم النظام بتحديث سياق تدفق الأسئلة والردود. هذا يتيح لنا التركيز على المزيد من الأسئلة البسيطة. إنه فرق كبير مع البحث كما اعتدنا عليه منذ Google. بدلاً من وضع جميع الكلمات الرئيسية في كلام واحد ، وهو أمر معقد مع Voice ويخلق ارتباكًا في البرمجة اللغوية العصبية ، اخترنا الحوارات والمتابعات كطريقة لتقسيم سؤال معقد إلى أسئلة فرعية أصغر يسهل صياغتها وأن نفهم.

إبلاغ القيود والتوقعات للمستخدم النهائي

بالمعنى التقليدي ، يعد التصميم عملية متضمنة بشكل كبير تعتمد بشكل كبير على خبرة المصممين وخبراتهم ، جنبًا إلى جنب مع الاختبار المستهدف والتجريب مع المستخدمين. مع VUI ، هذا مختلف قليلاً. هناك عدد أقل من أفضل الممارسات التي تم تحديدها في كيفية عمل VUI ، والأهم من ذلك أن النظام هو التعلم الذاتي. يؤدي ذلك إلى تحويل عملية التصميم إلى شيء تلعب فيه الخوارزميات دورًا أكبر ، على سبيل المثال ، لتحديد كيفية مراعاة ملاحظات المستخدم والألفاظ الجديدة والمرادفات الجديدة وما إلى ذلك.

ستحتاج إلى تصميم منتجك لالتقاط البيانات الصحيحة للتعلم من المستخدمين قدر الإمكان ، مما يعني تكرارًا غير محدود تقريبًا عبر مجموعة من الحواجز التكنولوجية المختلفة - من فهم الذكاء الاصطناعي الأساسي للمستخدم إلى الطرق التي تحث المستخدم من خلالها المدخلات والردود التي تتلقاها.

في الوقت نفسه ، يحتاج النظام إلى إبلاغ المستخدم بما هو مطلوب. إذا سبق لك استخدام Echo ، فأنت تعلم أن Alexa تطالب بردود مفصلة ، وغالبًا ما تكون متكررة للمستخدمين الحاليين. هذا مقصود ومهم لأنه يخبر المستخدم تمامًا بما هو مطلوب مع تقليل التكرار الذي قد "يتعثر" به الأشخاص من تكرار نفس السؤال بأشكال مختلفة.

من المغري استخدام أشجار الحوار نظرًا لتشابهها مع مخططات تدفق UX - محاولة مطابقة التدفق الطبيعي للكلام البشري عند طرح سؤال. بينما يمكن للمصممين الاستدلال إلى حد ما ، فإن الكثير من هذا غير مفيد في الواقع في محادثة اللغة الطبيعية. يعد توقع ما سيطلبه المستخدم عملية صعبة تتطلب تدابير متساوية للفن والعلم. عند القيام بذلك بشكل صحيح ، ستقوم ببناء نظام متوازن بعناية يمكنه التعامل مع نوايا المستخدم الدقيقة بشكل متزايد وتحريكها في الاتجاه الصحيح نحو المعلومات التي يبحثون عنها.

الخطوة التالية لخوارزميات VUI

المرحلة الطبيعية التالية للواجهات الصوتية هي نوع النضج الذي نراه بالفعل في العديد من التقنيات الأخرى - قدرة الأجهزة على التعرف على المستخدمين والتفاعل معهم ومراعاة "سياقهم": الموقع والاجتماعات القادمة والرسائل الأخيرة والعادات ، إلخ. إن التحدي ليس تقنيًا فحسب ، بل يتعلق أيضًا بالحصول على ثقة المستخدمين بأننا لا نغزو خصوصيتهم من خلال النظر في بياناتهم. هذا ممكن مع المعالجة على الجهاز ، حيث تعمل الخوارزميات محليًا على الجهاز ولا تشارك أي معلومات مع مزود الخدمة أو الشركة المصنعة للجهاز.

لن يؤدي ذلك إلى تسهيل استخدام الأنظمة أينما كان المستخدم فحسب ، بل سيسمح للنظام بأن يصبح أكثر ذكاءً ، ويستفيد من تقنيات التعلم الآلي لبدء استنتاج كميات أكبر من المعلومات من المستخدمين بناءً على مزاجهم ونبرة الصوت والسياق والكلمة اختيار. ما زلنا بعيدين بعض الوقت عن أن يصبح هذا حقيقة ، لكن الاستثمار والاهتمام بالتفاصيل في تفاعل المستخدم داخل هذه الأنظمة سيساعدنا في تقريبنا كثيرًا.

هناك توازن دقيق بين تعلم الذكاء الاصطناعي مما يطلبه المستخدم وتعلم المستخدم ما يطلبه للحصول على شيء ما من واجهة صوتية. سيستمر التوازن في التحول نحو الذكاء الاصطناعي حيث تصبح الأنظمة أكثر ذكاءً وانتشارًا في كل مكان ، ولكن في الوقت الحالي ، يحتاج المصممون إلى إدراك هذه المشكلة وإنشاء تطبيقات تتناسب معها.

***

Adrien Schmidt هو مهندس ومتحدث ورجل أعمال معترف به دوليًا. وهو الرئيس التنفيذي والمؤسس المشارك لشركة Aristotle by Bouquet.ai ، وهي شركة برمجيات مؤسسية في سان فرانسيسكو ، كاليفورنيا ، تقدم مساعدًا شخصيًا لتحليل الصوت لتحويل تحليلات البيانات إلى محادثة هادفة. كرائد فكري في مجال الذكاء الاصطناعي / الصوت ، يمكن العثور على عمله في المنشورات الرئيسية مثل Forbes و Inc و HuffPo و B2C. تم إدراجه في شركة Inc كرجل أعمال AI يجب مشاهدته وتحدث في أحداث مثل Web Summit و Collision و Chat Interaction و VOICE Summit و P&G Data Analytics Summit. تواصل معه على موقع شركته أو موقعه الشخصي أو Twitter أو LinkedIn.