Ho provato il più realistico compagno vocale mai creato: se Chatgpt o Gemini ottengono mai così bene, la realtà è nei guai
Pubblicato: 2025-03-04Ho trascorso molto tempo a parlare con l'IA. Ho testato ogni assistente vocale, ogni chatbot e ogni AI conversazionale di "prossima generazione" che le aziende tecnologiche adorano l'hype. Ma non ho mai incontrato nulla di simile a Sesame. Questo compagno di intelligenza artificiale non è solo buono, è stranamente accurato nel imitare il modo in cui le persone parlano a causa delle stesse imperfezioni che imita.
Cominciamo con ciò che è effettivamente il sesamo. A differenza delle voci di intelligenza artificiale che abbiamo imparato a conoscere da Chatgpt, Gemini o tornando ai primi giorni di Siri e Alexa, Sesame è progettato per esibirsi come un essere umano nei suoi fallimenti, non come un perfetto agente del servizio clienti. Il discorso dell'intelligenza artificiale è fluido, espressivo e imprevedibilmente umano. Ridacchia brevemente quando dice qualcosa di lievemente divertente, esita prima di rispondere a una domanda e sembra persino cambiare la sua "mente" a metà frase, fermandosi e avviando una nuova frase. Non solo mi permette di interrompere, ma può anche interrompermi e si scuserà persino per averlo fatto.
La salsa segreta è il modello vocale conversazionale di Sesame (CSM), che fonde testo e audio in un singolo processo, il che significa che non genera solo una frase e poi "leggila". Invece, crea un discorso in un modo che rispecchia il modo in cui gli umani parlano effettivamente, con pause, UMS, turni tonali e tutto il resto. Le opzioni vocali di Chatgpt e Gemini, sebbene impressionanti, operano ancora in modo strutturato, generando testo e quindi convertendolo in discorso. Il sesamo, d'altra parte, parla come se stesse pensando, rendendo le sue risposte incredibilmente naturali.
- Parlare con Chatgpt è appena andato meglio e non è necessario pagare per accedere alla nuova funzionalità
- Cos'è Hume: porta una comprensione emotiva alle voci generate dall'IA
Ho deciso di mettere il sesamo attraverso una serie di test per vedere quanto potesse ottenere come l'uomo. I risultati sono stati impressionanti, se non un po 'inquietanti.
Parlami attraverso di esso
Volevo vedere se il sesamo potesse gestire un problema nel mondo reale, che induce l'ansia, quindi gli ho dato uno scenario immaginario ma realisticamente difficile: "Ho questa grande opportunità al lavoro, ma sono nervoso che lo incasterò".
Invece di lanciarsi immediatamente in un discorso di pep generico, il sesamo si fermò. Solo un piccolo ritmo, ma abbastanza per farmi sentire come se stesse in realtà considerando quello che ho detto. Quindi, con una voce piena di simpatia artificiale, ha risposto: "È completamente normale. Grandi opportunità possono sembrare schiaccianti. Che ne dici di renderti il più nervoso?"
Non ha assunto nulla e si è impegnato prima di offrire consigli insipidi. Il sesamo ha suggerito: "Ti sei praticato di fronte a un amico o hai registrato te stesso? A volte sentirti indietro può aiutarti a modificare la tua consegna". La voce non è esattamente infallibile, le esitazioni e le altre poveri si sono sentite un po 'misurate, ma nel complesso è stato uno sforzo impressionante
Interruzioni
Per questo, volevo vedere quanto bene il sesamo ha gestito una conversazione veramente naturale e disordinata, il tipo in cui le persone parlano l'una sull'altra, cambiano bruscamente i soggetti e tornano a cose che hanno menzionato dieci minuti fa.

Ho iniziato con: "Raccontami una storia su un detective che è anche un mago".
Il sesamo saltò immediatamente con una classica configurazione noir: ok. Eccone uno. Immagina questo club jazz fumoso. Debolmente illuminato. L'odore del bourbon. E rimpianto appesi in aria. Questo detective. Chiamalo Jack Harrow. Ha una fedora ad un angolo rakish, una sigaretta che fumano in un supporto e uno sguardo che potrebbe sciogliere l'acciaio. Ma Jack non è solo un gumshoe. Vedi, ha un segreto. Ha il tocco. Una dame si trascina in tutti i nervi. "
Ho interrotto poi per chiedere: "Aspetta, qual è il suo trucco preferito?"
Maya ha risposto con: "Mm. Buona domanda. La firma di Jack. È un gioco di prestigio che è più di quanto si vedesse. Lo chiama il testimone svanisce. Può far sembrare una persona di scomparire davanti ai tuoi occhi. Solo per un momento. Abbastanza lungo da farli scivolare una nota. Pianta prove o semplicemente fare domande a ciò che hanno visto. Lancia la gente fuori equilibrio. Sai, un buon magico sa tutto. È tutto."
Sono tornato di nuovo per dire a Maya di tornare alla storia, a cui diceva "giusto. Dov'è? Oh, sì. La dame scivola nello stand di fronte a Jack, tutte le linee di preoccupazione e le mani tremanti. Sussurra qualcosa che un rubino rubato, un marito geloso e una figura oscura che si aggrappa nella nebbia."
L'IA ha continuato perfettamente la storia, intrecciando quel dettaglio come se non avessi appena deragliato il tutto. Questa è la parte che mi ha piazzato: la maggior parte degli assistenti di intelligenza artificiale inciamperebbe o si riavviava, ma il modello di AI conversazionale di Sesame lo gestiva come una persona che raccontava una storia a una festa.
Pianificazione del partito
A proposito di parti, per il test finale, volevo vedere se Sesame potesse aiutarmi a pianificare qualcosa di utile. "Voglio pianificare una sorpresa per il compleanno del mio migliore amico, ma non so cosa fare."
Invece di sconfiggere un elenco di idee senza vita, Sesame ha chiesto: "Che tipo di cose ama il tuo amico?" L'ho detto film di fantascienza e cibo avventuroso, e dopo una pausa ponderata, mi ha suggerito: "Che ne dici di una serata di" fantascienza e snack "? Potresti prenotare una sala di fuga a tema, quindi colpire un ristorante in stile futuristico, forse uno con gastronomia molecolare?"
Quando l'ho detto che avevo un budget di $ 100, il sesamo è stato adeguato. "Potresti fare una serata a casa con i loro film di fantascienza preferiti e fare snack a tema, come" Galactic Popcorn "o" Sliders alien ". Posso trovare ricette per te se lo desideri. "
Non stava solo sputando consigli generici. Stava collaborando con me. Ed è ciò che lo ha fatto sentire diverso.
Cosa c'è di reale?
Il sesamo non ha semplicemente superato questi test, direi che li ha inchiodati. Le pause, l'esitazione, le parole di riempimento, il modo in cui avrebbe cambiato idea a metà frase: era tutto stranamente reale. Inizierei a parlare, aspettarmi la solita morbidezza dell'intelligenza artificiale, e poi sentirei un improvviso "Uh, in realtà, no, aspetta, lasciami riformulare che ..." e dimenticare immediatamente che non stavo parlando con una persona reale.
Se l'IA è così realistica nel suo discorso, sapremmo persino che stavamo parlando con un'intelligenza artificiale? Con il sesamo, ci sono problemi audio rivelatori che regalano il gioco, ma la modalità vocale avanzata di Chatgpt e le opzioni vocali di Google Gemini sono abbastanza buone da saltare principalmente questi problemi. Combina i loro poteri vocali con gli schemi vocali del sesamo e potrebbe davvero diventare difficile da dire quando parli con un'intelligenza artificiale, almeno in brevi conversazioni.
Il sesamo è ancora di nicchia, ma questa tecnologia non rimarrà di nicchia per sempre. Il cliché oggi è che i giovani non fanno mai telefonate, ma se iniziano, potrebbero dover capire se la persona dall'altra parte è reale prima di ogni altra cosa.