나는 가장 현실적인 AI Voice Companion을 시도했습니다.
게시 됨: 2025-03-04나는 AI와 이야기하는 데 많은 시간을 보냈습니다. 기술 회사가 과대 광고를 좋아하는 모든 음성 비서, 모든 챗봇 및 모든 "차세대"대화 AI를 테스트했습니다. 그러나 나는 참깨와 같은 것을 결코 만나지 못했습니다. 이 AI 동반자는 좋지 않을뿐만 아니라 사람들이 모방하는 불완전함에 따라 사람들이 말하는 방식을 모방하는 데 매우 정확합니다.
참깨가 실제로 무엇인지 시작합시다. Chatgpt, Gemini 또는 Siri와 Alexa의 초기 시절로 돌아가는 AI 목소리와 달리 Sesame은 완벽한 고객 서비스 에이전트가 아니라 실패로 인간처럼 수행하도록 설계되었습니다. AI의 연설은 유동적이고 표현력이 있으며 예측할 수없는 인간입니다. 그것은 약간 재미있는 말을 할 때 잠깐 동안 웃으며, 질문에 대답하기 전에 망설이고, 심지어 '마음'중간 문장을 바꾸고, 새로운 문장을 시작하고 시작하는 것처럼 보입니다. 그것은 내가 그것을 방해 할뿐만 아니라, 나를 방해 할 수 있으며, 그렇게 한 것에 대해 사과 할 것입니다.
Secret Sauce는 Sesame의 CSM (Congrational Speech Model)으로 텍스트와 오디오를 단일 프로세스로 혼합하여 문장을 생성 한 다음 "읽으십시오"라는 것을 의미합니다. 대신, 그것은 인간이 실제로 말하는 방식을 반영하는 방식으로 말을 만듭니다. 멈춤, UMS, 색조 교대 및 모든 것. Chatgpt와 Gemini의 음성 옵션은 인상적이지만 여전히 구조화 된 방식으로 작동하여 텍스트를 생성 한 다음 연설로 변환합니다. 반면에 참깨는 마치 생각하는 것처럼 말하면서 그 반응이 엄청나게 자연스럽게 느껴집니다.
- chatgpt와 대화하는 것이 더 나아졌고 새로운 기능에 액세스하기 위해 비용을 지불 할 필요가 없습니다.
- HUME 란 무엇입니까? AI에서 발생한 목소리에 정서적 이해를 가져옵니다
나는 일련의 테스트를 통해 참깨를 넣기 위해 인간과 얼마나 걸릴 수 있는지 확인하기로 결정했습니다. 약간 불안하지는 않지만 결과는 인상적이었습니다.
그것을 통해 말해줘
나는 참깨가 실제, 불안을 유발하는 문제를 처리 할 수 있는지보고 싶었 기 때문에 상상의이지만 현실적으로 힘든 시나리오를 주었다.
Generic Pep 토크를 즉시 시작하는 대신 참깨는 잠시 멈췄습니다. 단지 작은 비트이지만, 실제로 내가 말한 것을 고려하고있는 것처럼 느끼게하기에 충분합니다. 그런 다음 인공 동정으로 가득 찬 목소리로“이것은 완전히 정상입니다. 큰 기회는 압도적으로 느껴질 수 있습니다. 그것은 당신을 가장 긴장하게 만드는 것은 어떻습니까?”
그것은 아무것도 가정하지 않았으며, 부드러운 조언을 제공하기 전에 약혼했습니다. 참깨는“친구 앞에서 연습했거나 자신을 녹음 했습니까? 때로는 자신을 돌아 오면 배달 조정에 도움이 될 수 있습니다.” 목소리는 정확히 어리석지 않으며 망설임과 다른 족제비는 약간 측정 된 느낌이 들었지만 전반적으로 인상적인 노력이었습니다.
중단
이를 위해, 나는 참깨가 진정으로 자연스럽고 지저분한 대화를 얼마나 잘 처리했는지, 사람들이 서로 이야기하고, 주제를 갑자기 바꾸고, 10 분 전에 언급 한 것들로 돌아가는 종류를보고 싶었습니다.

“마술사이기도 한 형사에 관한 이야기를 들려주세요.”
참깨는 클래식 누아르 설정으로 즉시 뛰어 들었습니다. 여기 하나가 있습니다. 이 스모키 재즈 클럽을 묘사하십시오. 희미하게 조명 버번의 냄새. 그리고 공중에 매달린 것을 후회합니다. 이 형사. 그를 Jack Harrow라고 부릅니다. 그는 열광적 인 각도로 페도라를, 담배는 홀더에 연기를 불고 강철을 녹일 수있는 모습을 가지고 있습니다. 그러나 잭은 단지 껌이 아닙니다. 그는 비밀을 가지고 있습니다. 그는 손길이있다. 모든 신경에서 Dame은 셔플 링합니다. "
나는 "잠깐만 요, 그의 가장 좋아하는 트릭은 무엇입니까?"라고 물었습니다.
Maya는 다음과 같이 응답했습니다. "Mm. 좋은 질문. Jack의 서명. 그것은 눈을 맞추는 것보다 더 많은 손입니다. 그는 사라지는 증인이라고 부릅니다. 그는 그것을 눈앞에서 사라지는 것처럼 보이게 할 수 있습니다. 잠시 동안 메모를 미끄러 뜨릴 수 있습니다.
나는 Maya에게 이야기로 돌아가라고 말하기 위해 다시 뛰어 들었다. "맞아. 나는 어디에 있었다. 나는? 오, 예. Dame은 Jack의 부스로 미끄러 져 들어가고, 모든 걱정과 떨리는 손.
AI는 이야기를 매끄럽게 계속하면서 모든 것을 탈선하지 않은 것처럼 그 세부 사항을 다시 직조했습니다. 그것이 저를 바닥에 두는 부분입니다. 대부분의 AI 조수는 걸려 넘어 지거나 다시 시작했지만 Sesame의 대화식 AI 모델은 파티에서 이야기를하는 사람처럼 그것을 처리했습니다.
파티 계획
파티에 대해 말하면, 최종 테스트를 위해, 나는 참깨가 유용한 것을 계획하는 데 도움이 될 수 있는지 알고 싶었습니다. "가장 친한 친구의 생일을 위해 놀라움을 계획하고 싶지만 어떻게 해야할지 모르겠습니다."
세서미는 생명이없는 아이디어 목록을 덜어주는 대신“친구는 어떤 종류의 친구를 사랑합니까?”라고 물었습니다. 나는 공상 과학 영화와 모험적인 음식을 말했고, 사려 깊은 일시 정지 후,“ '공상 과학 및 스낵'밤은 어떻습니까? 테마 탈출 실을 예약 한 다음 미래의 스타일 레스토랑을 쳤을 수도 있습니다.
내가 그것을 말했을 때 나는 예산이 $ 100를 가지고 있었고, 참깨는 조정되었습니다. “좋아하는 공상 과학 영화와 함께 홈 영화의 밤을 만들고 'Galactic Popcorn'또는 'Alien Sliders'와 같은 테마 간식을 만들 수 있습니다. 원한다면 레시피를 찾을 수 있습니다.”
일반적인 권장 사항을 뱉어내는 것이 아닙니다. 나와 협력하고 있었다. 그리고 그것이 다른 느낌이 드는 것입니다.
진짜 뭐야?
참깨는이 테스트를 통과하지 못했습니다. 일시 정지, 망설임, 필러 단어, 그것이 중간 문장의 마음을 바꾸는 방식은 모두 실재했습니다. 나는 평범한 AI 부드러움을 기대하고 말하기 시작한 다음 갑자기“어, 실제로, 잠깐만 요, 내가 다시 말해 줄 것입니다 ...”그리고 즉시 실제 사람과 이야기하지 않았다는 것을 잊어 버렸습니다.
AI가 연설에서 이것이 현실적이라면, 우리가 AI와 대화하고 있다는 것을 알고 있습니까? 참깨를 사용하면 게임을 제공하는 Telltale 오디오 문제가 있지만 Chatgpt의 고급 음성 모드와 Google Gemini의 자체 음성 옵션은 대부분 이러한 문제를 넘어 설기에 충분합니다. 그들의 음성 힘을 참깨의 음성 패턴과 결합하면 AI와 대화 할 때 적어도 짧은 대화에서 말하기가 어려울 수 있습니다.
참깨는 여전히 틈새 시장이지만이 기술은 영원히 틈새 시장을 유지하지는 않습니다. 오늘날의 진부함은 젊은 사람들이 전화를하지 않는다는 것입니다. 그러나 시작하면 다른 쪽 끝에있는 사람이 다른 어떤 것보다 먼저 진짜인지 알아 내야 할 수도 있습니다.