Este site permite clonar a voz de qualquer pessoa em menos de 30 segundos

Publicados: 2024-01-04

Você já desejou que a voz cativante de Morgan Freeman narrasse sua vida diária? Ou talvez você tenha imaginado seu GPS falando no tom sensual de Scarlett Johansson?

Graças a uma nova ferramenta inovadora do MyShell.ai, chamada OpenVoice, isso e muito mais estão agora ao seu alcance.

Então o que é? OpenVoice é uma ferramenta de clonagem instantânea de voz que pode imitar qualquer voz a partir de apenas uma pequena amostra de áudio.

Mas a verdadeira magia é que não se limita a imitar a voz de alguém; essencialmente, escolhe todas as suas características únicas.

OpenVoice permite controle granular sobre estilos de voz, incluindo emoção, sotaque, ritmo, pausas e entonação, um recurso que outras ferramentas de clonagem de voz simplesmente não oferecem.

Vídeo: YouTube

A tecnologia funciona dissociando ao máximo os componentes de uma voz, o que significa que o tom, o estilo e a linguagem são tratados como elementos individuais.

Isso permite que a voz, o estilo e o idioma básicos sejam manipulados de forma independente, oferecendo um nível impressionante de personalização.

O que realmente diferencia o OpenVoice de seus antecessores, como o ElevenLabs, é sua capacidade de clonagem de voz multilíngue de disparo zero. Isso significa que o OpenVoice pode imitar vozes em idiomas que não estão incluídos no seu conjunto de treinamento.

Então, se você sempre quis que seu audiolivro fosse lido em francês pela voz de um falante de inglês, o OpenVoice tem o que você precisa.

Vídeo: YouTube

Como clonar uma voz com o OpenVoice do MyShell

Embora a tecnologia seja complexa, usar o OpenVoice é surpreendentemente simples.

Tudo o que é necessário é um pequeno clipe de áudio do locutor desejado e, em segundos, você pode gerar fala na voz dessa pessoa, em vários idiomas e com uma variedade de emoções e estilos.

Aqui está um guia passo a passo sobre como usar o OpenVoice do MyShell com base nas instruções fornecidas na página do GitHub:

Embora a tecnologia seja complexa, usar o OpenVoice é surpreendentemente simples.

Tudo o que é necessário é um pequeno clipe de áudio do locutor desejado e, em segundos, você pode gerar fala na voz dessa pessoa, em vários idiomas e com uma variedade de emoções e estilos.

Clone o repositório OpenVoice
Você pode fazer isso navegando até o repositório OpenVoice GitHub e clicando no botão verde ‘Código’. Em seguida, clique em ‘Baixar ZIP’ para baixar os arquivos do repositório para o seu sistema local.
Baixar Zip
Em seguida, clique em ‘Baixar ZIP’ para baixar os arquivos do repositório para o seu sistema local.
Crie e ative um ambiente Python
Crie um novo ambiente Python e ative-o. Se estiver usando o Anaconda, você pode fazer isso com os seguintes comandos em seu terminal:
conda criar -n openvoice python=3.9
conda ativar openvoice
Instale os pacotes necessários
Para instalar os pacotes necessários, você pode fazer isso com os seguintes comandos em seu terminal:

conda instalar pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c nvidia
pip instalar -r requisitos.txt
Baixe o ponto de verificação aqui e extraia-o para a pasta checkpoints .

Como usar o OpenVoice

Nota: as coisas ficam um pouco técnicas aqui. Se você não tem nenhuma experiência em codificação ou não está familiarizado com ambientes Python, isso provavelmente vai passar pela sua cabeça. Mas se você gosta de um pouco de punição, vamos seguir em frente.

Controle flexível de estilo de voz : você pode ver um exemplo de como o OpenVoice permite controle flexível de estilo sobre a voz clonada em demo_part1.ipynb .
Clonagem de voz entre idiomas : você pode ver um exemplo de idiomas vistos ou não no conjunto de treinamento MSML em demo_part2.ipynb .
Demonstração do Gradio : você pode iniciar uma demonstração local do Gradio com o seguinte comando em seu terminal:

 python -m openvoice_app --share

Uso avançado : O modelo de alto-falante base pode ser substituído por qualquer modelo (em qualquer idioma e estilo) de sua preferência.

Openview coding example on a purple background — Imagem: KnowTechie

Você pode usar a função se_extractor.get_se conforme demonstrado na demonstração para extrair a incorporação da cor do tom para o novo alto-falante base.

2.5 Dicas para gerar fala natural : Existem muitos métodos TTS com um ou vários alto-falantes que podem gerar fala natural, que estão prontamente disponíveis.

Simplesmente substituindo o modelo de alto-falante base pelo modelo de sua preferência, você pode levar a naturalidade da fala ao nível desejado.

Observe que este repositório está licenciado sob uma Licença Creative Commons Attribution-NonCommercial 4.0 International, que proíbe o uso comercial.

Quanto custa o OpenVoice?

Atualmente, o uso do serviço é gratuito e a equipe do MyShell.ai disponibilizou o código-fonte e o modelo treinado no GitHub, permitindo que os desenvolvedores experimentem e ampliem a tecnologia.

Qual é o potencial do OpenVoice?

OpenVoice não é apenas um truque divertido.

Tem potencial para revolucionar as indústrias, desde o entretenimento e os meios de comunicação, onde poderia ser utilizado para dobrar filmes ou criar chatbots personalizados, até à acessibilidade, onde poderia dar voz àqueles que perderam a sua.

Embora o potencial de uso indevido, como áudio falso ou roubo de identidade, seja uma preocupação, a equipe do MyShell.ai está comprometida em seguir diretrizes éticas e explorar salvaguardas para evitar tal uso indevido.

Exemplo de tecnologia de clonagem de voz Openvoice — Imagem: KnowTechie

Em termos de velocidade e precisão, o OpenVoice supera seus concorrentes. A ferramenta é computacionalmente eficiente e a equipe afirma que pode gerar um segundo de fala em apenas 85 milissegundos.

OpenVoice é um vislumbre emocionante do futuro da tecnologia de voz.

Com a capacidade de clonar qualquer voz instantaneamente, as possibilidades parecem infinitas. Então, por que não tentar e ver quem você pode se tornar?

Os cérebros por trás dessa potência incluem Zengyi Qin, dos corredores do MIT e MyShell, Wenliang Zhao e Xumin Yu, ambos da Universidade de Tsinghua e, por último, mas não menos importante, Ethan Sun, da MyShell.

Tem alguma opinião sobre isso? Deixe-nos uma linha abaixo nos comentários ou leve a discussão para nosso Twitter ou Facebook.

Recomendações dos Editores:

Quem é o dono do ElevenLabs?
O que é ElevenLabs?
A aposta da Figma na IA do FigJam tornará as reuniões mais suportáveis
AI Copilot da Microsoft voa no iOS

Só para avisar, se você comprar algo por meio de nossos links, poderemos receber uma pequena parte da venda. É uma das maneiras de mantermos as luzes acesas aqui. Clique aqui para mais.

Este site permite clonar a voz de qualquer pessoa em menos de 30 segundos

Como clonar uma voz com o OpenVoice do MyShell

Clone o repositório OpenVoice

Baixar Zip

Crie e ative um ambiente Python

Instale os pacotes necessários

Como usar o OpenVoice

Quanto custa o OpenVoice?

Qual é o potencial do OpenVoice?

Siga-nos no Flipboard, Google News ou Apple News