올바른 질문을 통해 VUI 작동 방법 배우기

게시 됨: 2019-06-20

편집자 주: Adrien Schmidt는 국제적으로 인정받는 기업가, 엔지니어 및 혁신가입니다. 2015년 그는 개인 음성 분석 도우미를 제공하여 데이터 분석을 의미 있는 대화로 변환하는 엔터프라이즈 소프트웨어 회사인 Aristotle by Bouquet.ai를 공동 설립했습니다. 이 논평에 표현된 생각과 의견은 자신의 것입니다.

***

그래픽 사용자 인터페이스 이면의 과학은 거의 30년에 걸친 설계, 개발 및 테스트의 결과로 미세하게 조정되었습니다. 반면에 음성 사용자 인터페이스는 iPhone 4S용 iOS 5 릴리스에서 불과 7년 전만 해도 주류에 도달한 매우 새로운 기능입니다. 10년도 채 되지 않아 음성은 모바일 장치의 유비쿼터스 존재뿐만 아니라 Amazon, Google 및 기타 여러 업체에서 매년 판매되는 수천만 대의 가정용 장치와 함께 폭발적인 성장에 의해 자체 생태계가 되었습니다.

이 새로운 형태의 검색 및 소프트웨어 참여에 도전하는 VUI 개발자에게 이 기술은 공상과학 소설과 현대 AI의 한계가 만나는 지점을 나타냅니다. 이는 50년 이상의 꿈과 실험의 정점입니다. 따라서 사용자와 개발자가 여전히 VUI가 어떻게 생겼는지, 어떻게 작동해야 하는지 배우고 있다는 것은 놀라운 일이 아닙니다.

사용자가 필요한 답변을 얻으려면 어떤 질문을 해야 합니까? 원하는 작업을 트리거하기 위해 어떤 명령을 제공해야 합니까? 이것이 현재 업계가 직면한 가장 크고 시급한 질문입니다. VUI가 개선되고 간소화됨에 따라 사용자는 무엇을 요구하고 앞으로 몇 년 동안 어떻게 의사 소통할 것입니까?

AI는 무엇을 이해해야 할까요?

음성 사용자 인터페이스의 문제는 소프트웨어를 사용할 거의 모든 개인에게 고유한 대화와 트리거, 신호 및 구어체에 의존한다는 것입니다. 그것은 규칙이 있으며 특정 방식으로 말하는 특정 패턴의 말에 반응하도록 훈련되어야 합니다.

인터페이스를 더 유연하게 만들수록 더 많은 교육이 필요하고 오류가 발생하기 쉽습니다. 덜 유연할수록 사용자는 더 실망하게 됩니다. 따라서 AI가 이해하는 것과 사용자가 책임지는 것 사이에 균형이 잘 잡혀 있어야 합니다.

시스템이 질문과 응답의 흐름에 대한 컨텍스트를 업데이트하도록 설계의 핵심에 대화를 배치하기로 결정했습니다. 이를 통해 더 간단한 질문에 집중할 수 있습니다. Google 이후로 익숙해진 검색과 큰 차이가 있습니다. Voice로 복잡하고 NLP에 대한 혼란을 야기하는 단일 발화에 모든 키워드를 배치하는 대신 복잡한 질문을 더 쉽게 구사할 수 있는 더 작은 하위 질문으로 나누는 방법으로 대화 및 후속 조치를 선택했습니다. 그리고 이해하기.

최종 사용자에게 제한 사항 및 기대 사항 전달

전통적인 의미에서 디자인은 사용자를 대상으로 한 대상 테스트 및 실험과 결합된 디자이너의 전문 지식과 경험에 광범위하게 의존하는 매우 복잡한 프로세스입니다. VUI에서는 약간 다릅니다. VUI가 작동하는 방식에 대해 확립된 모범 사례는 거의 없으며 가장 중요한 것은 시스템이 자체 학습한다는 것입니다. 이는 설계 프로세스를 사용자 피드백, 새로운 발언, 새로운 동의어 등을 고려하는 방법을 결정하는 것과 같이 알고리즘이 더 큰 역할을 하는 것으로 전환합니다.

사용자로부터 배울 수 있는 올바른 데이터를 최대한 많이 캡처하도록 제품을 설계해야 합니다. 즉, 핵심 AI가 사용자를 이해하는 것부터 사용자에게 메시지를 표시하는 방식에 이르기까지 다양한 기술적 장벽에 걸쳐 거의 무한한 반복을 의미합니다. 입력 및 수신 응답.

동시에 시스템은 사용자에게 필요한 것을 전달해야 합니다. Echo를 사용한 적이 있다면 Alexa가 기존 사용자에게 종종 중복되는 자세한 응답을 프롬프트한다는 것을 알고 있습니다. 이는 사용자에게 무엇이 필요한지 정확히 알려주는 동시에 사람들이 같은 질문을 다른 형식으로 반복하는 "막히게" 되는 빈도를 줄이기 때문에 의도적이고 중요합니다.

UX 순서도와 유사하기 때문에 대화 트리를 사용하고 싶은 유혹이 있습니다. 질문을 받을 때 인간의 자연스러운 말 흐름을 일치시키려고 시도합니다. 디자이너는 어느 정도 추론할 수 있지만 이 중 대부분은 실제로 자연어 대화에서 쓸모가 없습니다. 사용자가 질문할 내용을 예측하는 것은 예술과 과학의 동등한 측정이 필요한 어려운 과정입니다. 제대로 수행되면 점점 더 미묘한 사용자 의도를 처리하고 원하는 정보를 향해 올바른 방향으로 이동할 수 있는 신중하게 균형 잡힌 시스템을 구축하게 됩니다.

VUI 알고리즘의 다음 단계

음성 인터페이스의 다음 자연스러운 단계는 이미 다른 여러 기술에서 볼 수 있는 일종의 성숙도입니다. 장치가 사용자를 인식하고 사용자와 상호 작용하고 위치, 예정된 회의, 최근 메시지, 습관 등 "컨텍스트"를 고려하는 기능입니다. 문제는 기술적인 문제일 뿐만 아니라 사용자의 데이터를 살펴봄으로써 사용자의 개인 정보를 침해하지 않는다는 사용자의 신뢰를 얻는 문제이기도 합니다. 이는 알고리즘이 장치에서 로컬로 실행되고 서비스 공급자 또는 장치 제조업체와 정보를 공유하지 않는 장치 내 처리로 가능합니다.

이를 통해 사용자가 어디에 있든 시스템을 더 쉽게 사용할 수 있을 뿐만 아니라 머신 러닝 기술을 활용하여 사용자의 기분, 어조, 컨텍스트 및 단어를 기반으로 더 많은 양의 정보를 추론하기 시작함으로써 시스템이 더 똑똑해질 수 있습니다. 선택. 이것이 현실이 되기까지는 아직 시간이 걸리지만 이러한 시스템 내에서 사용자 상호 작용에 대한 세부 사항에 대한 투자와 관심은 우리를 훨씬 더 가깝게 만드는 데 도움이 될 것입니다.

AI가 사용자가 묻는 것을 배우는 것과 사용자가 음성 인터페이스에서 무언가를 얻기 위해 무엇을 물어야 하는지 배우는 것 사이에는 신중한 균형이 있습니다. 시스템이 더 스마트해지고 유비쿼터스화됨에 따라 균형은 계속해서 AI로 옮겨갈 것이지만, 지금으로서는 설계자가 이 문제를 인식하고 그에 맞는 애플리케이션을 구축해야 합니다.

***

Adrien Schmidt는 국제적으로 인정받는 엔지니어, 연사 및 기업가입니다. 그는 데이터 분석을 의미 있는 대화로 변환하는 개인 음성 분석 비서를 제공하는 캘리포니아 샌프란시스코의 엔터프라이즈 소프트웨어 회사인 Bouquet.ai의 Aristotle의 CEO이자 공동 창립자입니다. AI/Voice 분야의 선구자로서 그의 작업은 Forbes, Inc, HuffPo 및 B2C와 같은 주요 출판물에서 찾을 수 있습니다. 그는 Inc.에 주목할만한 AI 기업가로 등록되어 있으며 Web Summit, Collision, Conversational Interaction, VOICE Summit 및 P&G Data Analytics Summit과 같은 행사에서 연설했습니다. 그의 회사 또는 개인 웹사이트, Twitter 또는 LinkedIn에서 그와 연결하십시오.