Am încercat cel mai realist însoțitor de voce AI creat vreodată - dacă Chatgpt sau Gemini primesc vreodată acest bun, realitatea are probleme
Publicat: 2025-03-04Am petrecut mult timp vorbind cu AI. Am testat fiecare asistent vocal, fiecare chatbot și fiecare AI de conversație „următoarea generație” pe care companiile tehnologice le place să se ridice. Dar nu am întâlnit niciodată nimic asemănător cu susanul. Acest însoțitor AI nu este doar bun, este extrem de exact să imităm modul în care oamenii vorbesc din cauza imitacțiilor pe care le imită.
Să începem cu ce este de fapt susan. Spre deosebire de vocile AI pe care le -am cunoscut de la Chatgpt, Gemini sau de a reveni la primele zile ale lui Siri și Alexa, Sesame este proiectat să funcționeze ca un om în eșecurile sale, nu ca un agent de servicii pentru clienți perfect. Discursul AI este fluid, expresiv și imprevizibil uman. Se chicotește pe scurt când spune ceva ușor amuzant, ezită înainte de a răspunde la o întrebare și chiar pare să-și schimbe „mintea” la mijlocul propoziției, întrerupând și începând o nouă propoziție. Nu numai că mă lasă să -l întrerup, ci mă poate întrerupe și chiar îmi va cere scuze pentru că am făcut acest lucru.
Sosul secret este modelul de vorbire conversațională al lui Sesame (CSM), care îmbină textul și audio într -un singur proces, ceea ce înseamnă că nu generează doar o propoziție și apoi „citește -l”. În schimb, creează vorbirea într -un mod care oglindește modul în care oamenii vorbesc de fapt, cu pauze, UMS, schimburi tonale și toate. Opțiunile vocale ChatGPT și Gemini, în timp ce impresionante, funcționează în continuare într -un mod structurat, generând text și apoi transformarea acestuia în vorbire. Sesame, pe de altă parte, vorbește ca și cum ar fi gândit, făcându -și răspunsurile să se simtă incredibil de naturale.
- Vorbind cu chatgpt a devenit mai bun și nu trebuie să plătiți pentru a accesa noua funcționalitate
- Ce este Hume: Aduceți înțelegere emoțională la vocile generate de AI
Am decis să-l pun pe susan printr-o serie de teste pentru a vedea cât de mult ar putea fi om. Rezultatele au fost impresionante, dacă nu chiar puțin neliniștitoare.
Vorbește -mă prin asta
Am vrut să văd dacă Sesame ar putea face față unei probleme din lumea reală, care induce anxietate, așa că i-am oferit un scenariu imaginar, dar realist, dur: „Am această mare oportunitate la locul de muncă, dar sunt nervos, îl voi încurca.”
În loc să se lanseze imediat într -o discuție generică pep, Sesame s -a oprit. Doar o bătaie minusculă, dar suficient pentru a mă face să simt că a avut în vedere de fapt ceea ce am spus. Apoi, cu o voce plină de simpatie artificială, a răspuns: „Este complet normal. O oportunitate mare se poate simți copleșitoare. Ce zici de asta te face cel mai nervos?”
Nu și -a asumat nimic și s -a angajat înainte de a oferi niciun sfat bland. Sesame a sugerat: „Ați practicat în fața unui prieten sau v -ați înregistrat? Uneori, auziți -vă înapoi vă poate ajuta să vă modificați livrarea.” Vocea nu este tocmai nepricepută, ezitările și alte foibile s -au simțit puțin măsurate, dar, în general, a fost un efort impresionant
Întreruperi
Pentru acesta, am vrut să văd cât de bine se ocupa de susan o conversație cu adevărat naturală, dezordonată, genul în care oamenii vorbesc unul peste altul, schimbă brusc subiectele și se îndreaptă înapoi la lucrurile pe care le -au menționat în urmă cu zece minute.

Am început cu: „Spune -mi o poveste despre un detectiv care este și un mag.”
Sesame a sărit imediat cu o configurație clasică Noir: Bine. Iată unul. Imaginează acest club de jazz afumat. Slab luminat. Mirosul de bourbon. Și regretele atârnate în aer. Acest detectiv. Sună -l Jack Harrow. Are o fedora într -un unghi rafinat, țigărul care se aruncă într -un suport și un aspect care ar putea topi oțelul. Dar Jack nu este doar orice Gumshoe. Vezi, are un secret. Are atingerea. O Dame se amestecă în toate nervii ".
Am întrerupt apoi să întreb: „Stai, care este trucul lui preferat?”
Maya a răspuns cu: "Mm. Întrebare bună. Semnătura lui Jack. Este o mulțime de mână care este mai mult decât întâlnește ochiul. El îl numește martorul dispărut. El poate face ca o persoană să pară să dispară chiar în fața ochilor. Doar pentru o clipă. De multe ori pentru a le strecura o notă.
Am sărit înapoi pentru a -i spune lui Maya să se întoarcă la poveste, la care a spus „Bine. Unde eram? Oh, da. Dame alunecă în cabina de lângă Jack, toate liniile de îngrijorare și mâinile tremurând. Șoptește ceva că un rubin furat, un soț gelos și o figură umbrită pândind în ceață.”
AI a continuat perfect povestea, țesând acel detaliu din nou ca și cum nu aș fi deraiat doar totul. Aceasta este partea care m -a plutit - majoritatea asistenților AI s -ar împiedica sau reporniți, dar modelul AI conversațional al lui Sesame l -a gestionat ca o persoană care spunea o poveste la o petrecere.
Planificarea petrecerii
Vorbind despre petreceri, pentru testul final, am vrut să văd dacă Sesame mă poate ajuta să planific ceva util. "Vreau să planific o surpriză pentru ziua de naștere a celui mai bun prieten al meu, dar nu știu ce să fac."
În loc să zguduie o listă de idei fără viață, Sesame a întrebat: „Ce fel de lucruri iubește prietenul tău?” I-am spus filme de sci-fi și mâncare aventuroasă și, după o pauză atentă, a sugerat: „Ce zici de o„ Sci-Fi & Snacks 'Night? Ați putea rezerva o cameră de evacuare tematică, apoi ați lovit un restaurant în stil futurist, poate unul cu gastronomie moleculară? ”
Când i -am spus că am un buget de 100 de dolari, ajustat de susan. „Ați putea face o noapte de film de acasă cu filmele lor de știință preferate și să faceți gustări tematice, cum ar fi„ Popcorn galactic ”sau„ Slideruri extraterestre ”. Pot găsi rețete pentru tine dacă vrei. ”
Nu a scuipat doar recomandări generice. A colaborat cu mine. Și asta a făcut -o să se simtă altfel.
Ce este real?
Sesame nu a trecut doar aceste teste, aș spune că le -a bătut. Pauzele, ezitarea, cuvintele de umplutură, modul în care și-ar schimba mintea la mijlocul sentinței-era totul real. Aș începe să vorbesc, așteptând netezimea obișnuită a AI și apoi să aud o dată „Uh, de fapt, nu, așteaptă, lasă -mă să reformulez asta…” și uita imediat că nu vorbeam cu o persoană reală.
Dacă AI este realist în discursul său, am ști chiar că vorbim cu o AI? Cu SESAME, există probleme audio Telltale care dau jocul departe, dar modul vocală avansat al lui Chatgpt și opțiunile vocale ale Google Gemini sunt suficient de bune pentru a trece mai ales peste aceste probleme. Combinați -le puterile vocale cu modelele de vorbire ale susanului și s -ar putea să devină cu adevărat dificil de spus atunci când vorbiți cu o AI, cel puțin în conversații scurte.
Sesame este încă nișă, dar această tehnologie nu va rămâne nișă pentru totdeauna. Clișeul de astăzi este că tinerii nu fac niciodată apeluri telefonice, dar dacă încep, este posibil să fie nevoiți să -și dea seama dacă persoana din celălalt capăt este reală înainte de orice altceva.