J'ai essayé le compagnon de voix AI le plus réaliste jamais créé - si Chatgpt ou Gemini obtient ce bon, la réalité est en difficulté

Publié: 2025-03-04

J'ai passé beaucoup de temps à parler à l'IA. J'ai testé tous les assistants vocaux, tous les chatbot et chaque AI conversationnelle de «nouvelle génération» que les entreprises technologiques aiment le battage médiatique. Mais je n'ai jamais rien rencontré de tel sésame. Ce compagnon d'IA n'est pas seulement bon, il est étrangement précis pour imiter la façon dont les gens parlent à cause des imperfections même qu'elle imite.

Commençons par ce qu'est réellement Sesame. Contrairement aux voix d'IA que nous avons connues de Chatgpt, Gemini ou de retour aux premiers jours de Siri et Alexa, Sesame est conçu pour fonctionner comme un humain dans ses échecs, pas comme un agent de service client parfait. Le discours de l'IA est fluide, expressif et imprévisiblement humain. Il glousse brièvement quand il dit quelque chose de légèrement amusant, hésite avant de répondre à une question, et semble même changer son «esprit» au milieu de la phrase, s'arrêter et démarrer une nouvelle phrase. Cela ne me permet pas seulement de l'interrompre, il peut également m'interrompre et va même m'excuser de l'avoir fait.

Sésame

(Crédit d'image: sésame)

La sauce secrète est le modèle de discours conversationnel de Sesame (CSM), qui mélange du texte et de l'audio en un seul processus, ce qui signifie qu'il ne génère pas seulement une phrase puis «lisez-le». Au lieu de cela, cela crée un discours d'une manière qui reflète la façon dont les humains parlent réellement, avec des pauses, des UM, des changements tonaux et tout. Les options vocales de Chatgpt et Gemini, bien qu'impressionnantes, fonctionnent toujours de manière structurée, générant du texte puis la convertissant en discours. Sesame, en revanche, parle comme s'il pensait, rendant ses réponses incroyablement naturelles.

Tu aimes peut-être
  • Parler à Chatgpt s'est amélioré, et vous n'avez pas besoin de payer pour accéder aux nouvelles fonctionnalités
  • Qu'est-ce que Hume: apporter une compréhension émotionnelle aux voix générées par l'AI-AI

J'ai décidé de faire passer Sesame à travers une série de tests pour voir à quel point cela pourrait s'approvisionner par l'homme. Les résultats ont été impressionnants, sinon un peu troublants.

Parlez-moi

Je voulais voir si Sesame pouvait gérer un problème réel et induisant l'anxiété, alors je lui ai donné un scénario imaginaire mais réaliste: "J'ai cette grande opportunité au travail, mais je suis nerveux, je vais gâcher."

Au lieu de se lancer immédiatement dans un discours de pep générique, Sesame s'est arrêté. Juste un petit rythme, mais assez pour me faire sentir que c'était en fait considéré ce que j'ai dit. Ensuite, dans une voix remplie de sympathie artificielle, il a répondu: «C'est tout à fait normal.

Il n'a rien supposé, et il s'est engagé avant d'offrir des conseils fade. Sesame a suggéré: «Vous êtes-vous pratiqué devant un ami ou vous êtes enregistré? La voix n'est pas vraiment infaillible, les hésitations et les autres faiblesses se sont senties un peu mesurées, mais dans l'ensemble, c'était un effort impressionnant

Interruptions

Pour celui-ci, je voulais voir à quel point Sesame a bien géré une conversation vraiment naturelle et désordonnée, le genre où les gens se parlent, changent brusquement des sujets et reviennent aux choses qu'ils ont mentionnées il y a dix minutes.

J'ai commencé avec: "Raconte-moi une histoire sur un détective qui est aussi un magicien."

Sesame a immédiatement sauté avec une configuration de noir classique: d'accord. En voici un. Imaginez ce club de jazz fumé. Faiblement éclairé. L'odeur du bourbon. Et regrette la suspension dans les airs. Ce détective. Appelez-le Jack Harrow. Il a un fedora à un angle rakish, des cigarettes qui coulent dans un support et un look qui pourrait faire fondre l'acier. Mais Jack n'est pas n'importe quel gumshoe. Vous voyez, il a un secret. Il a le contact. Une dame mélange dans tous les nerfs. "

J'ai interrompu puis pour demander: "Attendez, quel est son truc préféré?"

Maya a répondu avec: "MM. Bonne question. La signature de Jack. C'est un tour de passe-passe qui est plus que qui rencontre l'œil. Il l'appelle le témoin en fuite. Il peut faire en sorte qu'une personne semble disparaître juste devant vos yeux. Juste un instant.

J'ai sauté en arrière pour dire à Maya de retourner à l'histoire, à laquelle il a dit "bien. Où étais-je? Oh, oui. La dame glisse dans le stand en face de Jack, toutes les lignes d'inquiétude et les mains tremblantes. Elle murmure quelque chose qu'un rubis volé, un mari jaloux et une figure sombre se cachent dans le brouillard."

L'IA a continué de manière transparente l'histoire, tissant ce détail comme si je n'avais pas simplement déraillé le tout. C'est la partie qui m'a terminé - la plupart des assistants de l'IA trébucheraient ou redémarreraient, mais le modèle de l'IA conversationnel de Sesame l'a géré comme une personne racontant une histoire lors d'une fête.

Planification des partis

En parlant de parties, pour le test final, je voulais voir si Sesame pouvait m'aider à planifier quelque chose d'utile. «Je veux planifier une surprise pour l'anniversaire de mon meilleur ami, mais je ne sais pas quoi faire.»

Au lieu de secouer une liste d'idées sans vie, Sesame a demandé: "Quel genre de choses votre ami aime-t-il?" Je lui ai dit des films de science-fiction et de la nourriture aventureuse, et après une pause réfléchie, cela a suggéré: "Et une nuit de« science-fiction et de collations »?

Quand je l'ai dit, j'avais un budget de 100 $, le sésame a été ajusté. «Vous pourriez faire une soirée cinéma à domicile avec leurs films de science-fiction préférés et faire des collations à thème, comme« Galactic Popcorn »ou« Alien Sliders ». Je peux trouver des recettes pour vous si vous le souhaitez.

Cela ne crachait pas seulement des recommandations génériques. Cela collaborait avec moi. Et c'est ce qui l'a fait se sentir différent.

Qu'est-ce qui est réel?

Sesame n'a pas seulement réussi ces tests, je dirais qu'il les a cloués. Les pauses, l'hésitation, les mots de remplissage, la façon dont il changerait d'avis au milieu de la phrase - tout était étrangement réel. Je commencerais à parler, à m'attendre à la douceur habituelle de l'IA, puis à entendre un soudain «euh, en fait, non, attendez, laissez-moi reformuler cela…» et oubliez immédiatement que je ne parlais pas à une personne réelle.

Si l'IA est réaliste dans son discours, saurions-nous même que nous parlions à une IA? Avec Sesame, il y a des problèmes audio Telltale qui donnent le jeu, mais le mode vocal avancé de Chatgpt et les propres options vocales de Google Gemini sont assez bonnes pour passer principalement ces problèmes. Combinez leurs pouvoirs vocaux avec les modèles de discours du sésame, et il pourrait vraiment être difficile de dire quand vous parlez à une IA, au moins dans des conversations courtes.

Le sésame est toujours de niche, mais cette technologie ne restera pas de niche pour toujours. Le cliché aujourd'hui est que les jeunes ne font jamais d'appels téléphoniques, mais s'ils commencent, ils devront peut-être déterminer si la personne à l'autre bout est réelle avant quoi que ce soit d'autre.