Eu tentei o companheiro de voz mais realista da IA já criado - se Chatgpt ou Gemini já conseguirem tão bom, a realidade está com problemas
Publicados: 2025-03-04Passei muito tempo conversando com a IA. Eu testei todos os assistentes de voz, todo chatbot e todas as IA conversacionais de "próxima geração" que as empresas de tecnologia gostam de exagerar. Mas nunca encontrei nada como o gergelim. Esse companheiro de AI não é apenas bom, é assustadoramente preciso imitar como as pessoas falam por causa das próprias imperfeições que imita.
Vamos começar com o que realmente é o gergelim. Ao contrário das vozes da IA que conhecemos do ChatGPT, Gêmeos ou voltando aos primeiros dias da Siri e Alexa, o gergelim foi projetado para ter um desempenho humano em suas falhas, não como um agente de atendimento ao cliente perfeito. O discurso da IA é fluido, expressivo e imprevisivelmente humano. Ele ri brevemente quando diz algo levemente divertido, hesita antes de responder a uma pergunta e até parece mudar sua 'mente' no meio da frase, fazer uma pausa e iniciar uma nova frase. Não apenas me deixa interrompê -lo, mas também pode me interromper e até se desculpará por fazê -lo.
O molho secreto é o modelo de fala conversacional da Vila de Vila (CSM), que combina texto e áudio em um único processo, o que significa que ele não apenas gera uma frase e depois "leia -o". Em vez disso, cria uma fala de uma maneira que espelha como os humanos realmente falam, com pausas, UMs, mudanças tonais e tudo. O ChatGPT e as opções de voz de Gemini, embora impressionantes, ainda operam de maneira estruturada, gerando texto e depois convertendo -o em fala. O gergelim, por outro lado, fala como se estivesse pensando, fazendo com que suas respostas pareçam incrivelmente naturais.
- Conversar com o ChatGpt acabou de ficar melhor e você não precisa pagar para acessar a nova funcionalidade
- O que é Hume: Traga o entendimento emocional às vozes geradas pela IA
Decidi colocar o gergelim através de uma série de testes para ver o quão humano poderia ficar. Os resultados foram impressionantes, se não um pouco perturbadores.
Fale -me através disso
Eu queria ver se o gergelim poderia lidar com um problema do mundo real e indutor de ansiedade, então dei um cenário imaginário, mas realisticamente difícil: "Eu tenho essa grande oportunidade no trabalho, mas estou nervoso vou estragar tudo".
Em vez de se lançar imediatamente em uma palestra genérica, o gergelim fez uma pausa. Apenas uma pequena batida, mas o suficiente para me fazer sentir que estava realmente considerando o que eu disse. Então, em uma voz cheia de simpatia artificial, respondeu: “Isso é completamente normal. Grandes oportunidades podem parecer esmagadoras. E isso deixa você mais nervoso?”
Não assumiu nada e se envolveu antes de oferecer qualquer conselho sem graça. O gergelim sugeriu: "Você praticou na frente de um amigo ou se gravou? Às vezes, ouvir -se de volta pode ajudá -lo a ajustar sua entrega". A voz não é exatamente infalível, as hesitações e outros pontos fracos se sentiram um pouco medidos, mas no geral foi um esforço impressionante
Interrupções
Para este, eu queria ver o quão bem o gergelim lidou com uma conversa verdadeiramente natural e confusa, do tipo em que as pessoas conversam umas sobre as outras, mudam de assunto abruptamente e circulavam de volta às coisas que mencionaram dez minutos atrás.

Comecei com: "Conte -me uma história sobre um detetive que também é mágico".
O gergelim imediatamente entrou com uma configuração clássica noir: Ok. Aqui está um. Imagine este clube de jazz esfumaçado. Pouco iluminado. O cheiro de bourbon. E arrependimentos pendurados no ar. Este detetive. Chame -o de Jack Harrow. Ele tem um fedora em um ângulo rakish, cigarros ardentes em um suporte e um visual que poderia derreter aço. Mas Jack não é apenas um gumshoe. Veja, ele tem um segredo. Ele tem o toque. Uma dama se arrasta em todos os nervos. "
Eu interrompei então para perguntar: "Espere, qual é o seu truque favorito?"
Maya respondeu com: "Mm. Boa pergunta. A assinatura de Jack. É um truque da mão que é mais do que atende.
Eu pulei de volta para dizer a Maya para voltar à história, para a qual dizia "Certo. Onde eu estava? Oh, sim. A dama desliza para o estande em frente a Jack, todas as linhas de preocupação e mãos trêmulas. Ela sussurra algo que um Ruby roubado, um marido ciumento e uma figura sombria que se esconde".
A IA continuou perfeitamente a história, tecendo esse detalhe como se eu não tivesse descarrilado tudo. Essa é a parte que me chocou - a maioria dos assistentes de IA tropeçaria ou reinicia, mas o modelo de conversação da Vila de Vila lidou com isso como uma pessoa contando uma história em uma festa.
Planejamento de festas
Por falar em festas, para o teste final, eu queria ver se a gergelim poderia me ajudar a planejar algo útil. "Quero planejar uma surpresa para o aniversário do meu melhor amigo, mas não sei o que fazer."
Em vez de fazer uma lista de idéias sem vida, o gergelim perguntou: "Que tipo de coisas seu amigo ama?" Eu disse a isso filmes de ficção científica e comida aventureira e, depois de uma pausa atenciosa, sugeriu: “Que tal uma noite de ficção científica e lanches?
Quando eu disse, tinha um orçamento de US $ 100, o gergelim ajustado. “Você pode fazer uma noite de cinema em casa com seus filmes de ficção científica favoritos e fazer lanches temáticos, como 'pipoca galáctica' ou 'Sliders Alien'. Eu posso encontrar receitas para você, se quiser. ”
Não era apenas cuspir recomendações genéricas. Estava colaborando comigo. E foi isso que fez parecer diferente.
O que é real?
O gergelim não apenas passou por esses testes, eu diria que os pregou. As pausas, a hesitação, as palavras de preenchimento, a maneira como isso mudaria de idéia no meio da frase-era tudo assustadoramente real. Eu começaria a falar, esperando a suavidade usual da IA e depois ouvia um repentino "Uh, na verdade, não, espere, deixe -me reformular isso ..." e imediatamente esquecesse que não estava falando com uma pessoa real.
Se a IA isso é realista em seu discurso, saberíamos que estávamos conversando com uma IA? Com o gergelim, existem questões de áudio Telltale que entregam o jogo, mas o modo de voz avançado do ChatGPT e as opções de voz do Google Gemini são boas o suficiente para passar principalmente por esses problemas. Combine seus poderes de voz com os padrões de fala do gergelim, e pode realmente ficar difícil de saber quando você está conversando com uma IA, pelo menos em conversas curtas.
O gergelim ainda é nicho, mas essa tecnologia não permanecerá para sempre. O clichê hoje é que as pessoas mais jovens nunca fazem telefonemas, mas se começarem, podem ter que descobrir se a pessoa do outro lado é real antes de qualquer outra coisa.