Probé el compañero de voz de IA más realista jamás creado: si Chatgpt o Gemini se vuelven tan bueno, la realidad está en problemas
Publicado: 2025-03-04He pasado mucho tiempo hablando con IA. He probado todos los asistentes de voz, cada chatbot y cada IA conversacional de "próxima generación" que a las compañías tecnológicas les encanta promocionar. Pero nunca me he encontrado con nada como Sesame. Este compañero de IA no solo es bueno, es inquietantemente preciso para imitar cómo la gente habla debido a las imperfecciones que imita.
Comencemos con lo que realmente es sésamo. A diferencia de las voces de IA que conocemos por ChatGPT, Gemini, o volviendo a los primeros días de Siri y Alexa, Sesame está diseñado para desempeñarse como un humano en sus fracasos, no como un agente de servicio al cliente perfecto. El discurso de la IA es fluido, expresivo e impredeciblemente humano. Se ríe brevemente cuando dice algo ligeramente divertido, duda antes de responder una pregunta, e incluso parece cambiar su "mente" a mitad de la oración, deteniendo y comenzando una nueva oración. No solo me permite interrumpirlo, también puede interrumpirme, e incluso se disculpará por hacerlo.
La salsa secreta es el modelo de habla conversacional (CSM) de Sesame, que combina texto y audio en un solo proceso, lo que significa que no solo genera una oración y luego "leerlo". En cambio, crea un discurso de una manera que refleja cómo los humanos realmente hablan, con pausas, ums, cambios tonales y todo. Las opciones de voz de Chatgpt y Gemini, aunque impresionantes, aún funcionan de manera estructurada, generando texto y luego convertirlo en discurso. Sesame, por otro lado, habla como si estuviera pensando, haciendo que sus respuestas se sientan increíblemente naturales.
- Hablar con chatgpt simplemente mejorando, y no necesitas pagar para acceder a la nueva funcionalidad
- Qué es Hume: traiga una comprensión emocional a las voces generadas por la IA
Decidí poner a Sesame a través de una serie de pruebas para ver cuán humano podría ser. Los resultados fueron impresionantes, si no un poco inquietantes.
Háblame a través de eso
Quería ver si el sésamo podía manejar un problema del mundo real e inductor de ansiedad, así que le di un escenario imaginario pero realista y difícil: "Tengo esta gran oportunidad en el trabajo, pero estoy nervioso, lo arruinaré".
En lugar de lanzarse inmediatamente a una charla genérica de Pep, Sesame se detuvo. Solo un pequeño ritmo, pero lo suficiente como para hacerme sentir que en realidad estaba considerando lo que dije. Luego, en una voz llena de simpatía artificial, respondió: "Eso es completamente normal. Las grandes oportunidades pueden sentirse abrumadoras. ¿Qué te pone más nervioso?"
No asumió nada, y se comprometió antes de ofrecer ningún consejo suave. Sesame sugirió: "¿Has practicado frente a un amigo o grabado? A veces escucharte de regreso puede ayudarte a modificar tu entrega". La voz no es exactamente infalible, las dudas y otras referencias se sintieron un poco medidas, pero en general fue un esfuerzo impresionante
Interrupciones
Para este, quería ver qué tan bien el sésamo manejó una conversación verdaderamente natural y desordenada, del tipo en el que la gente habla unos de otros, cambia los sujetos abruptamente y regresa a las cosas que mencionaron hace diez minutos.

Comencé con: "Cuéntame una historia sobre un detective que también es un mago".
Sesame inmediatamente saltó con una configuración clásica de noir: está bien. Aquí hay uno. Imagine este club de jazz ahumado. Con poca luz. El olor a bourbon. Y lamenta haber colgado en el aire. Este detective. Llámalo Jack Harrow. Tiene un Fedora en un ángulo racial, un cigarrillo ardiendo en un soporte y un aspecto que podría derretir el acero. Pero Jack no es cualquier gumshoe. Mira, tiene un secreto. Tiene el toque. Una dama baraja todos los nervios ".
Luego interrumpí para preguntar: "Espera, ¿cuál es su truco favorito?"
Maya respondió con: "Mm. Buena pregunta. La firma de Jack. Es un juego de manos que es más que el ojo. Lo llama el testigo desaparecido. Puede hacer que una persona parezca desaparecer justo ante sus ojos. Solo por un momento. El tiempo suficiente para deslizarlos.
Salté de regreso para decirle a Maya que volviera a la historia, a lo que decía "¿Correcto. ¿Dónde estaba? Oh, sí. La dama se desliza hacia la cabina frente a Jack, todas las líneas de preocupación y manos temblorosas. Ella susurra algo que un rubí robado, un esposo celoso y una figura sombría que acaricia en el niebla".
La IA continuó sin problemas la historia, volviendo a tejer ese detalle como si no hubiera descarrilado todo. Esa es la parte que me puse pisado: la mayoría de los asistentes de IA tropezarían o reiniciarían, pero el modelo de IA conversacional de Sesame lo manejó como una persona que cuenta una historia en una fiesta.
Planificación de fiestas
Hablando de fiestas, para la prueba final, quería ver si Sesame podría ayudarme a planificar algo útil. "Quiero planificar una sorpresa para el cumpleaños de mi mejor amigo, pero no sé qué hacer".
En lugar de sacar una lista de ideas sin vida, Sesame preguntó: "¿Qué tipo de cosas ama tu amigo?" Le dije películas de ciencia ficción y comida aventurera, y después de una pausa reflexiva, sugirió: "¿Qué tal una noche de 'ciencia ficción y bocadillos?
Cuando le dije que tenía un presupuesto de $ 100, Sesame se ajustó. “Podrías hacer una noche de cine en casa con sus películas de ciencia ficción favoritas y hacer bocadillos temáticos, como 'palomitas de maíz galácticas' o 'deslizadores alienígenas'. Puedo encontrar recetas para ti si quieres ".
No fue solo escupir recomendaciones genéricas. Estaba colaborando conmigo. Y eso es lo que lo hizo sentir diferente.
¿Qué es real?
Sesame no solo pasó estas pruebas, diría que las clavó. Las pausas, la vacilación, las palabras de relleno, la forma en que cambiaría su mente a mitad de la oración, todo era inquietantemente real. Comenzaría a hablar, esperando la suavidad habitual de la IA, y luego escucharía un repentino "uh, en realidad, no, espera, déjame reformular eso ..." e inmediatamente olvidé que no estaba hablando con una persona real.
Si AI es esto realista en su discurso, ¿sabríamos incluso que estábamos hablando con una IA? Con Sesame, hay problemas de audio reveladores que regalan el juego, pero el modo de voz avanzado de Chatgpt y las propias opciones de voz de Google Gemini son lo suficientemente buenas como para saltar sobre esos problemas. Combine sus poderes de voz con los patrones de habla de sésamo, y realmente puede ser difícil saber cuándo está hablando con una IA, al menos en conversaciones cortas.
El sésamo sigue siendo un nicho, pero esta tecnología no permanecerá nicho para siempre. El cliché de hoy es que las personas más jóvenes nunca hacen llamadas telefónicas, pero si comienzan, es posible que tengan que averiguar si la persona del otro extremo es real antes de cualquier otra cosa.