Я попробовал самый реалистичный компаньон AI Voice, когда -либо созданный - если Chatgpt или Gemini когда -либо получат эту хорошую, реальность в беде
Опубликовано: 2025-03-04Я провел много времени на разговоры с ИИ. Я проверил каждого голосового помощника, каждого чата-бота и каждого разговорного искусственного интеллекта «следующего поколения», который любят технологические компании. Но я никогда не сталкивался с чем -то вроде кунжута. Этот компаньон ИИ не просто хорош, он очень точно подражает тому, как люди говорят из -за тех самых недостатков, которые он подражает.
Давайте начнем с того, что на самом деле является Sesame. В отличие от голосов ИИ, которые мы узнали из Chatgpt, Gemini или возвращения к первым дням Siri и Alexa, Sesame предназначен для того, чтобы выступать как человек в своих неудачах, а не как идеальный агент по обслуживанию клиентов. Речь ИИ является плавной, выразительной и непредсказуемо человеческой. Он кратко смеется, когда говорит что-то слегка забавное, колеблется, прежде чем отвечать на вопрос, и даже, кажется, меняет свой «разум» в середине предложения, останавливаясь и начав новое предложение. Это не только позволяет мне прервать его, но и может прервать меня и даже извиниться за это.
Секретный соус - это разговорная речевая модель Sesame (CSM), которая смешивает текст и аудио в один процесс, что означает, что он не просто генерирует предложение, а затем «прочитайте его». Вместо этого это создает речь таким образом, что отражает то, как люди на самом деле разговаривают, с паузами, UMS, тональными сдвигами и всем остальным. Параметры голоса Chatgpt и Gemini, хотя и впечатляющие, все еще работают структурированным образом, генерируя текст, а затем преобразуя его в речь. Sesame, с другой стороны, говорит так, как будто он думает, заставляя его ответы невероятно естественно.
- Разговор с Chatgpt стал лучше, и вам не нужно платить, чтобы получить доступ к новой функциональности
- Что такое Юм: привнести эмоциональное понимание в голоса, сгенерированные AI
Я решил провести кунжут через серию тестов, чтобы увидеть, насколько человеком он может получить. Результаты были впечатляющими, если не немного тревожными.
Поговори мне через это
Я хотел посмотреть, сможет ли Сезам решить реальную, вызывающую беспокойство проблему, поэтому я дал ему воображаемый, но реалистично жесткий сценарий: «У меня есть такая большая возможность на работе, но я нервничаю, я испорчу это».
Вместо того, чтобы немедленно запустить общий бодрый разговор, Sesame остановился. Просто крошечный ритм, но достаточно, чтобы я почувствовал, что на самом деле рассматривался то, что я сказал. Затем, голосом, наполненным искусственным сочувствием, он ответил: «Это совершенно нормально. Большие возможности могут чувствовать себя ошеломляющими. А что это делает вас самым нервным?»
Это ничего не предполагало, и это вовлечено, прежде чем предложить какие -либо мягкие советы. Сезам предложил: «Вы практиковали перед другом или записывали себя? Иногда отвечаете, что вы можете помочь вам настроить вашу доставку». Голос не совсем надежный, колебания и другие слабости чувствовали себя немного измеренными, но в целом это было впечатляющее усилие
Перерывы
Для этого я хотел посмотреть, насколько хорошо Sesame справился с по -настоящему естественным, грязным разговором, такую, где люди разговаривают друг с другом, резко меняют предметы и возвращаются к вещам, о которых они упомянули десять минут назад.

Я начал с: «Расскажи мне историю о детективе, который также является магом».
Сезам сразу же заскочил с классической нуар настройки: хорошо. Вот один. Представьте себе этот дымный джазовый клуб. Смутно освещенный. Запах бурбона. И сожалеет о висящем в воздухе. Этот детектив. Назовите его Джеком Харроу. У него есть федора под ракисским углом, сигарета тлею в держателе и вид, который может растопить сталь. Но Джек не просто gumshoe. Видишь, у него есть секрет. У него есть прикосновение. Дама перетасовывает во всех нервах ".
Затем я прервал: «Подожди, какой его любимый трюк?»
Майя ответила: «ММ. Хороший вопрос. Подпись Джека. Это ловкость рук, которая больше, чем встречает глаз. Он называет его исчезающим свидетелем. Он может заставить человека исчезнуть прямо на твоих глазах. Просто на мгновение. Достаточно долго, чтобы дать им записку. Значительные доказательства или просто заставить его сомневаться в том, что они видели. Это бросает людей в нерабочее место. Ты знаешь, что хорошее волшек знает.
Я прыгнул обратно, чтобы сказать Майи, чтобы вернуться к истории, к которой она говорила: «Правильно. Где я?
ИИ плавно продолжил историю, втянув эту деталь, как будто я не сорвал все это. Это та часть, которая поразила меня - большинство помощников ИИ споткнулись или перезапустили, но разговорная модель ИИ Сезам справилась с ней как с человеком, рассказывающим историю на вечеринке.
Партийное планирование
Говоря о вечеринках, для окончательного теста я хотел посмотреть, сможет ли Сезам помочь мне спланировать что -то полезное. «Я хочу спланировать сюрприз на день рождения моего лучшего друга, но я не знаю, что делать».
Вместо того, чтобы оторвать безжизненный список идей, Сезам спросил: «Что любит ваш друг ваш друг?» Я рассказал это научно-фантастическими фильмами и авантюрной едой, и после вдумчивой паузы он предложил: «Как насчет ночи научно-фантастических и закусок? Вы можете забронировать тематическую комнату для побега, а затем попасть в ресторан в футуристическом стиле, может быть, с молекулярной гастрономией?»
Когда я сказал, что у меня был бюджет в 100 долларов, скорректирован Sesame. «Вы могли бы сделать домашний вечер кино с их любимыми научно-фантастическими фильмами и сделать тематические закуски, такие как« Галактический попкорн »или« инопланетные ползунки ». Я могу найти для вас рецепты, если хотите ».
Это не просто выплевывал общие рекомендации. Это сотрудничало со мной. И это то, что заставило его чувствовать себя по -другому.
Что реально?
Сезам не просто прошел эти тесты, я бы сказал, что это прибило их. Паузы, колебания, слова наполнителя, способ, которым они изменили бы свой разум в середине предложения-все было очень реально. Я бы начал говорить, ожидая обычной гладкости ИИ, а затем услышал внезапную: «На самом деле, нет, подожди, позволь мне перефразировать это…» и сразу забыть, что я не разговариваю с настоящим человеком.
Если ИИ это реалистично в своей речи, бы мы даже знали, что говорили с ИИ? С Sesame есть контрольные проблемы звука, которые отдают игру, но усовершенствованный голосовой режим Chatgpt и собственные варианты голоса Google Gemini достаточно хороши, чтобы в основном пропустить эти проблемы. Объедините их голосовые способности с речевыми паттернами кунжута, и это может действительно стать трудно сказать, когда вы разговариваете с ИИ, по крайней мере, в коротких разговорах.
Сезам все еще ниша, но эта технология не останется нишей навсегда. Сегодняшнее клише заключается в том, что молодые люди никогда не совершают телефонных звонков, но если они начнут, им, возможно, придется выяснить, является ли человек на другом конце реальным раньше чего -либо еще.