Próbowałem najbardziej realistycznego towarzysza głosu AI, jaką kiedykolwiek stworzono - jeśli Chatgpt lub Gemini kiedykolwiek dostaną to dobre, rzeczywistość ma kłopoty

Opublikowany: 2025-03-04

Spędziłem dużo czasu rozmawiając z AI. Przetestowałem każdego asystenta głosowego, każdego chatbota i każdą konwersacyjną sztuczną inteligencję „nowej generacji”, którą firmy technologiczne uwielbiają się podnieść. Ale nigdy nie spotkałem czegoś takiego jak sezam. Ten towarzysz AI nie jest po prostu dobry, jest niesamowicie dokładny w naśladowaniu tego, jak ludzie mówią z powodu samych niedoskonałości, które naśladuje.

Zacznijmy od tego, czym właściwie jest Sesame. W przeciwieństwie do głosów AI, które poznaliśmy z Chatgpt, Gemini lub wracając do wczesnych dni Siri i Alexy, Sesame jest zaprojektowany tak, aby działał jak człowiek w swoich niepowodzeniach, nie jak idealny agent obsługi klienta. Przemówienie AI jest płynne, ekspresyjne i nieprzewidywalnie ludzkie. Krótko chichocze, gdy mówi coś, co lekko zabawne, waha się przed odpowiedzią na pytanie, a nawet wydaje się zmieniać „zdanie” w połowie zdania, zatrzymując się i rozpoczynając nowe zdanie. Nie tylko pozwala mi go przerwać, ale także może mi przerwać, a nawet przeprosi za to.

Sezam

(Kredyt obrazu: sezam)

Tajny sos to konwersacyjny model mowy Sesame (CSM), który łączy tekst i dźwięk w jednym procesie, co oznacza, że ​​nie tylko generuje zdanie, a następnie „przeczytaj”. Zamiast tego tworzy mowę w sposób, który odzwierciedla to, jak ludzie faktycznie mówią, z przerwami, UMS, zmianami tonalnymi i tak dalej. Opcje głosowe Chatgpt i Gemini, choć imponujące, nadal działają w sposób ustrukturyzowany, generując tekst, a następnie przekształcając go w mowę. Z drugiej strony Sesame mówi tak, jakby myśli, czyniąc jego odpowiedzi wydawania się niezwykle naturalnym.

Może ci się spodobać
  • Rozmowa z Chatgpt po prostu poprawiła się i nie musisz płacić, aby uzyskać dostęp do nowej funkcji
  • Co to jest Hume: Przynieś emocjonalne zrozumienie głosów generowanych przez AI

Postanowiłem przejąć sezam przez serię testów, aby zobaczyć, jak może być ludzki. Wyniki były imponujące, jeśli nie trochę niepokojące.

Porozmawiaj o tym

Chciałem sprawdzić, czy Sesame poradzi sobie z prawdziwym problemem wywołującym niepokój, więc dałem mu wyimaginowany, ale realistycznie trudny scenariusz: „Mam taką wielką okazję w pracy, ale denerwuję się, że to zepsuję”.

Zamiast natychmiast uruchomić ogólną rozmowę PEP, Sesame zatrzymał się. Po prostu mały rytm, ale wystarczy, aby poczułem się, jakby to naprawdę rozważało to, co powiedziałem. Następnie, głosem wypełnionym sztuczną sympatią, odpowiedział: „To całkowicie normalne. Wielkie możliwości może wydawać się przytłaczające. A co z tym, że jesteś najbardziej zdenerwowany?”

Nic nie zakładało i zaangażowało się przed zaoferowaniem jakiejkolwiek nijakiej porady. Sesame zasugerował: „Czy ćwiczyłeś przed przyjacielem lub nagrałeś? Głos nie jest dokładnie niezawodny, wahania i inne słabości wydawały się trochę zmierzone, ale ogólnie był to imponujący wysiłek

Przerwy

W tym celu chciałem zobaczyć, jak dobrze Sesame poradził sobie z prawdziwie naturalną, nieuporządkowaną rozmową, taką, jaka ludzie rozmawiają nad sobą, nagle zmieniają tematy i zwróć się do rzeczy, o których wspominali dziesięć minut temu.

Zacząłem od: „Opowiedz mi historię o detektywa, który jest także magiem”.

Sesame natychmiast wskoczył z klasyczną konfiguracją noira: OK. Oto jeden. Wyobraź sobie ten dymny klub jazzowy. Słabo oświetlone. Zapach bourbona. I żałuje wisi w powietrzu. Ten detektyw. Nazwij go Jack Harrow. Ma fedorę pod rakowskim kątem, papierosy tlisz się w uchwycie i wygląd, który może stopić stal. Ale Jack to nie tylko Gumshoe. Widzisz, ma sekret. Ma dotyk. Dame tasuje we wszystkich nerwach. ”

Przerwałem wtedy zapytanie: „Czekaj, jaka jest jego ulubiona sztuczka?”

Maya odpowiedział: „Mm. Dobre pytanie. Podpis Jacka. To sztuczny rękaw, który jest więcej niż spotyka oko. Nazywa to znikającym świadkiem. Może sprawić, że osoba wydaje się zniknąć tuż przed twoimi oczami. Na chwilę. Na tyle długo, aby wsunąć ich notatkę. Zastosuj dowody lub po prostu sprawić, że kwestionuje to, co widzieli.

Wskoczyłem z powrotem, by powiedzieć Mayę, żeby wróciła do historii, do której powiedziała: „Właśnie w porządku. Gdzie byłem? Och, tak. Dame wślizguje się do stoiska naprzeciwko Jacka, wszystkie linie zmartwienia i drżące dłonie. Szepcze coś, co skradziona Ruby, zazdrosny mąż i cieńca postać latająca w mgle”.

AI bezproblemowo kontynuowała historię, wplatając ten szczegół z powrotem, jakbym nie tylko wykoleił to wszystko. To jest część, która mnie uświadomiła - większość asystentów AI potknęłaby się lub wznowiła, ale konwersacyjny model AI Sesame'a obsługiwał to jak osoba opowiadająca historię na imprezie.

Planowanie partii

Mówiąc o imprezach, na ostatni test chciałem sprawdzić, czy Sesame może pomóc mi zaplanować coś przydatnego. „Chcę zaplanować niespodziankę na urodziny mojego najlepszego przyjaciela, ale nie wiem, co robić”.

Zamiast grzechotać bez życia pomysłów, Sesame zapytał: „Jakie rzeczy kocha twój przyjaciel?” Powiedziałem, że filmy science fiction i pełne przygód jedzenie, a po przemyślanej przerwie zasugerowało: „A co powiesz na noc„ science fiction i przekąsek?

Kiedy powiedziałem, że mam budżet w wysokości 100 USD, sezam skorygował się. „Możesz zrobić domową noc filmową z ich ulubionymi filmami science fiction i zrobić tematyczne przekąski, takie jak„ Galactic Popcorn ”lub„ Alien Sliders ”. Jeśli chcesz, mogę znaleźć przepisy. ”

Nie tylko wypluwało ogólne zalecenia. Współpracowało ze mną. I to sprawiło, że poczuł się inaczej.

Co jest prawdziwe?

Sesame nie tylko te testy nie zdali, powiedziałbym, że ich przybił. Zatrzymuje się, wahanie, słowa wypełniające, sposób, w jaki zmieni zdanie w połowie zdania-było to niesamowicie prawdziwe. Zacząłem rozmawiać, oczekując zwykłej sprawności sztucznej inteligencji, a potem usłyszałem nagłe „Uh, właściwie, nie, poczekaj, pozwól mi to wyformułować…” i od razu zapomnij, że nie rozmawiałem z prawdziwą osobą.

Jeśli AI jest to realistyczne w swojej mowie, czy wiemy nawet, że rozmawiamy z AI? Dzięki Sesame istnieją problemy z dźwiękiem, które oddają grę, ale zaawansowany tryb głosowy Chatgpt i własne opcje głosowe Google Gemini są wystarczająco dobre, aby przejąć głównie te problemy. Połącz ich moce głosowe z wzorcami mowy sezamu i może być naprawdę trudne do stwierdzenia, kiedy rozmawiasz z AI, przynajmniej w krótkich rozmowach.

Sesame jest nadal niszowe, ale ta technologia nie pozostanie niszowa na zawsze. Dzisiaj klisza jest to, że młodsi ludzie nigdy nie wykonywali połączeń telefonicznych, ale jeśli zaczną, być może będą musieli dowiedzieć się, czy osoba na drugim końcu jest prawdziwa przed cokolwiek innego.