我尝试了有史以来创建的最现实的AI语音伴侣 - 如果Chatgpt或Gemini变得如此好,那么现实就会遇到麻烦
已发表: 2025-03-04我花了很多时间与AI交谈。我已经测试了每个语音助手,每个聊天机器人以及技术公司喜欢大肆宣传的每个“下一代”对话AI。但是我从来没有遇到过像芝麻这样的东西。这个AI伴侣不仅很好,而且在模仿人们如何说话的情况下,它非常准确。
让我们从芝麻实际是什么开始。与我们从Chatgpt,Gemini或回到Siri和Alexa的初期所了解的AI声音不同,芝麻的设计旨在像人类的失败中一样表现出色,而不是完美的客户服务代理。人工智能的讲话是流畅的,表现力和不可预测的人类。它在回答问题之前犹豫不决,犹豫不决,甚至似乎改变了它的“思想”中间句子,暂停并开始新句子时,简而言之。它不仅可以让我中断它,还可以打扰我,甚至会为此而道歉。
秘密调味料是芝麻的对话语音模型(CSM),它将文本和音频融合到一个过程中,这意味着它不仅会生成句子,然后“读出”。取而代之的是,它以一种反映人类实际说话,暂停,UMS,色调转移等方式的方式来创建语音。 Chatgpt和Gemini的语音选项令人印象深刻,但仍以结构化的方式运行,生成文本,然后将其转换为语音。另一方面,芝麻的说话好像在思考,使它的回答变得非常自然。
- 与chatgpt交谈变得更好,您无需付费即可访问新功能
- 什么是休ume:将情感理解带入AI生成的声音
我决定对芝麻进行一系列测试,以了解它的类似人。结果令人印象深刻,即使不是有些不安。
通过它来和我说话
我想看看芝麻是否可以处理一个现实世界中引起焦虑的问题,所以我给了一个想象中但现实的场景:“我在工作中有很大的机会,但是我很紧张,我会弄乱它。”
芝麻无需立即发起通用的PEP演讲。只是一个很小的节拍,但足以让我觉得这实际上是在考虑我所说的话。然后,在充满人造同情的声音中,它回答:“这完全是正常的。大机会会感到不知所措。这让您最紧张的是什么?”
它没有任何假设,并且在提供任何平淡的建议之前就订婚了。芝麻建议:“您是在朋友面前练习还是录制自己?有时会听到自己可以帮助您调整交货。”声音并不完全是万无一失,犹豫不决和其他脆弱的感觉有些衡量,但总的来说这是一项令人印象深刻的努力
中断
为此,我想看看芝麻处理的真正自然,凌乱的对话,人们互相交谈,突然改变主题,然后回到他们十分钟前提到的事情。

我首先:“告诉我一个关于侦探也是魔术师的故事。”
芝麻立即加入了经典的黑色设置:好的。这是一个。想象这个烟熏爵士俱乐部。昏暗的点亮。波旁威士忌的气味。并后悔悬挂在空中。这个侦探。叫他杰克·哈罗(Jack Harrow)。他的角度有一个浅色的角度,在持有者中闷闷不乐,看起来可以融化钢。但是杰克不仅是任何笨蛋。看,他有一个秘密。他有触摸。一个夫人在各种神经中散发出来。”
然后我打断说:“等等,他最喜欢的把戏是什么?”
玛雅回答说:“ mm。好问题。杰克的签名。这是一只手,远不止眼睛。他称之为消失的见证人。他可以使一个人看起来像是在你眼前消失了。只是一会儿。足够长的时间。足够长时间的笔记。植物的证据。
我跳回去告诉玛雅回到这个故事,它说:“对。我在哪里?哦,是的。是的。
AI无缝地继续了这个故事,将细节编织回去,好像我还没有使整个事情脱轨。那是让我感到不适的部分 - 大多数AI助手会绊倒或重新开始,但是芝麻的对话型AI模型就像在聚会上讲故事的人一样处理它。
聚会计划
说到聚会,对于最终考试,我想看看芝麻是否可以帮助我计划一些有用的东西。 “我想为我最好的朋友的生日计划一个惊喜,但我不知道该怎么办。”
芝麻没有打扰毫无生气的想法清单,而是问:“您的朋友喜欢什么样的东西?”我告诉了它的科幻电影和冒险的食物,经过深思熟虑的停顿,它建议:“一个科幻和小吃的夜晚怎么样?您可以预订一个主题的逃生室,然后去一家未来派风格的餐厅,也许是一家分子美食家?”
当我告诉我的预算为100美元时,芝麻调整后进行了调整。 “您可以通过他们最喜欢的科幻电影制作主场电影之夜,并制作主题小吃,例如'银河爆米花'或'Alien Sliders'。如果您愿意,我可以为您找到食谱。”
这不仅仅是吐出通用建议。它与我合作。这就是让它感觉与众不同的原因。
什么是真实的?
芝麻不仅通过了这些测试,我会说它钉了它们。暂停,犹豫,填充词,它将改变其思想中间的方式 - 这是真实的。我会开始说话,期待通常的AI平滑度,然后突然听到“呃,实际上,不,等等,让我重新说……”,立即忘记了我不是在和一个真实的人说话。
如果AI在演讲中是现实的,我们甚至知道我们正在与AI交谈吗?有了芝麻,有一些明显的音频问题可以使游戏消失,但是Chatgpt的高级语音模式和Google Gemini自己的语音选项足够好,可以大多跳过这些问题。将他们的声音能力与芝麻的语音模式结合在一起,至少在短时间对话中,可能会很难分辨出您在与AI交谈时。
芝麻仍然是利基市场,但是这项技术不会永远保持利基市场。今天的陈词滥调是,年轻人永远不会打电话,但是如果他们开始打电话,他们可能不得不弄清楚另一端的人是否在其他任何事情之前是真实的。