我嘗試了有史以來創建的最現實的AI語音伴侶 - 如果Chatgpt或Gemini變得如此好,那麼現實就會遇到麻煩

已發表: 2025-03-04

我花了很多時間與AI交談。我已經測試了每個語音助手,每個聊天機器人以及技術公司喜歡大肆宣傳的每個“下一代”對話AI。但是我從來沒有遇到過像芝麻這樣的東西。這個AI伴侶不僅很好,而且在模仿人們如何說話的情況下,它非常準確。

讓我們從芝麻實際是什麼開始。與我們從Chatgpt,Gemini或回到Siri和Alexa的初期所了解的AI聲音不同,芝麻的設計旨在像人類的失敗中一樣表現出色,而不是完美的客戶服務代理。人工智能的講話是流暢的,表現力和不可預測的人類。它在回答問題之前猶豫不決,猶豫不決,甚至似乎改變了它的“思想”中間句子,暫停並開始新句子時,簡而言之。它不僅可以讓我中斷它,還可以打擾我,甚至會為此而道歉。

芝麻

(圖片來源:芝麻)

秘密調味料是芝麻的對話語音模型(CSM),它將文本和音頻融合到一個過程中,這意味著它不僅會生成句子,然後“讀出”。取而代之的是,它以一種反映人類實際說話,暫停,UMS,色調轉移等方式的方式來創建語音。 Chatgpt和Gemini的語音選項令人印象深刻,但仍以結構化的方式運行,生成文本,然後將其轉換為語音。另一方面,芝麻的說話好像在思考,使它的回答變得非常自然。

你可能喜歡
  • 與chatgpt交談變得更好,您無需付費即可訪問新功能
  • 什麼是休ume:將情感理解帶入AI生成的聲音

我決定對芝麻進行一系列測試,以了解它的類似人。結果令人印象深刻,即使不是有些不安。

通過它來和我說話

我想看看芝麻是否可以處理一個現實世界中引起焦慮的問題,所以我給了一個想像中但現實的場景:“我在工作中有很大的機會,但是我很緊張,我會弄亂它。”

芝麻無需立即發起通用的PEP演講。只是一個很小的節拍,但足以讓我覺得這實際上是在考慮我所說的話。然後,在充滿人造同情的聲音中,它回答:“這完全是正常的。大機會會感到不知所措。這讓您最緊張的是什麼?”

它沒有任何假設,並且在提供任何平淡的建議之前就訂婚了。芝麻建議:“您是在朋友面前練習還是錄製自己?有時會聽到自己可以幫助您調整交貨。”聲音並不完全是萬無一失,猶豫不決和其他脆弱的感覺有些衡量,但總的來說這是一項令人印象深刻的努力

中斷

為此,我想看看芝麻處理的真正自然,凌亂的對話,人們互相交談,突然改變主題,然後回到他們十分鐘前提到的事情。

我首先:“告訴我一個關於偵探也是魔術師的故事。”

芝麻立即加入了經典的黑色設置:好的。這是一個。想像這個煙熏爵士俱樂部。昏暗的點亮。波旁威士忌的氣味。併後悔懸掛在空中。這個偵探。叫他傑克·哈羅(Jack Harrow)。他的角度有一個淺色的角度,在持有者中悶悶不樂,看起來可以融化鋼。但是傑克不僅是任何笨蛋。看,他有一個秘密。他有觸摸。一個夫人在各種神經中散發出來。 ”

然後我打斷說:“等等,他最喜歡的把戲是什麼?”

瑪雅回答說:“ mm。好問題。傑克的簽名。這是一隻手,遠不止眼睛。他稱之為消失的見證人。他可以使一個人看起來像是在你眼前消失了。只是一會兒。足夠長的時間。足夠長時間的筆記。植物的證據。

我跳回去告訴瑪雅回到這個故事,它說:“對。我在哪裡?哦,是的。是的。

AI無縫地繼續了這個故事,將細節編織回去,好像我還沒有使整個事情脫軌。那是讓我感到不適的部分 - 大多數AI助手會絆倒或重新開始,但是芝麻的對話型AI模型就像在聚會上講故事的人一樣處理它。

聚會計劃

說到聚會,對於最終考試,我想看看芝麻是否可以幫助我計劃一些有用的東西。 “我想為我最好的朋友的生日計劃一個驚喜,但我不知道該怎麼辦。”

芝麻沒有打擾毫無生氣的想法清單,而是問:“您的朋友喜歡什麼樣的東西?”我告訴了它的科幻電影和冒險的食物,經過深思熟慮的停頓,它建議:“一個科幻和小吃的夜晚怎麼樣?您可以預訂一個主題的逃生室,然後去一家未來派風格的餐廳,也許是一家分子美食家?”

當我告訴我的預算為100美元時,芝麻調整後進行了調整。 “您可以通過他們最喜歡的科幻電影製作主場電影之夜,並製作主題小吃,例如'銀河爆米花'或'Alien Sliders'。如果您願意,我可以為您找到食譜。”

這不僅僅是吐出通用建議。它與我合作。這就是讓它感覺與眾不同的原因。

什麼是真實的?

芝麻不僅通過了這些測試,我會說它釘了它們。暫停,猶豫,填充詞,它將改變其思想中間的方式 - 這是真實的。我會開始說話,期待通常的AI平滑度,然後突然聽到“呃,實際上,不,等等,讓我重新說……”,立即忘記了我不是在和一個真實的人說話。

如果AI在演講中是現實的,我們甚至知道我們正在與AI交談嗎?有了芝麻,有一些明顯的音頻問題可以使遊戲消失,但是Chatgpt的高級語音模式和Google Gemini自己的語音選項足夠好,可以大多跳過這些問題。將他們的聲音能力與芝麻的語音模式結合在一起,至少在短時間對話中,可能會很難分辨出您在與AI交談時。

芝麻仍然是利基市場,但是這項技術不會永遠保持利基市場。今天的陳詞濫調是,年輕人永遠不會打電話,但是如果他們開始打電話,他們可能不得不弄清楚另一端的人是否在其他任何事情之前是真實的。