Este sitio web te permite clonar la voz de cualquier persona en menos de 30 segundos

Publicado: 2024-01-04

¿Alguna vez has deseado que la cautivadora voz de Morgan Freeman narre tu vida diaria? ¿O tal vez te has imaginado tu GPS hablando en el tono sensual de Scarlett Johansson?

Gracias a una nueva e innovadora herramienta de MyShell.ai, llamada OpenVoice, esto y mucho más ahora están a nuestro alcance.

¿Así que qué es lo? OpenVoice es una herramienta de clonación de voz instantánea que puede imitar cualquier voz a partir de una breve muestra de audio.

Pero la verdadera magia es que no se limita a imitar la voz de alguien; Básicamente, selecciona cuidadosamente todas sus características únicas.

OpenVoice permite un control granular sobre los estilos de voz, incluidas las emociones, el acento, el ritmo, las pausas y la entonación, una característica que otras herramientas de clonación de voz simplemente no ofrecen.

Vídeo: YouTube

La tecnología funciona desacoplando los componentes de una voz tanto como sea posible, lo que significa que el tono, el estilo y el lenguaje se tratan como elementos individuales.

Esto permite manipular la voz, el estilo y el lenguaje base de forma independiente, ofreciendo un impresionante nivel de personalización.

Lo que realmente diferencia a OpenVoice de sus predecesores, como ElevenLabs, es su capacidad de clonación de voz en varios idiomas. Esto significa que OpenVoice puede imitar voces en idiomas que no están incluidos en su conjunto de entrenamiento.

Entonces, si alguna vez quisiste que tu audiolibro fuera leído en francés por la voz de un hablante de inglés, OpenVoice lo tiene cubierto.

Vídeo: YouTube

Cómo clonar una voz con OpenVoice de MyShell

Aunque la tecnología es compleja, utilizar OpenVoice es sorprendentemente sencillo.

Todo lo que necesita es un breve clip de audio del orador deseado y, en cuestión de segundos, puede generar un discurso con la voz de esa persona, en varios idiomas y con una variedad de emociones y estilos.

Aquí hay una guía paso a paso sobre cómo usar OpenVoice de MyShell según las instrucciones proporcionadas en su página de GitHub:

Carbono 1

Aunque la tecnología es compleja, utilizar OpenVoice es sorprendentemente sencillo.

Todo lo que necesita es un breve clip de audio del orador deseado y, en cuestión de segundos, puede generar un discurso con la voz de esa persona, en varios idiomas y con una variedad de emociones y estilos.

  1. Clonar el repositorio de OpenVoice
    Cómo instalar openview myshell. Ai

    Puede hacerlo navegando al repositorio de OpenVoice GitHub y haciendo clic en el botón verde "Código". Luego haga clic en 'Descargar ZIP' para descargar los archivos del repositorio a su sistema local.

  2. Descargar Zip
    Cómo instalar la herramienta de clonación de voz openview

    Luego haga clic en 'Descargar ZIP' para descargar los archivos del repositorio a su sistema local.

  3. Crear y activar un entorno Python
    Carbono 1

    Cree un nuevo entorno Python y actívelo. Si estás usando Anaconda, puedes hacerlo con los siguientes comandos en tu terminal:

    conda crear -n openvoice python = 3.9
    conda activar voz abierta

  4. Instalar los paquetes necesarios
    Openview python enviorment

    Para instalar los paquetes necesarios, puede hacerlo con los siguientes comandos en su terminal:

    conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
    cuda=11.7 -c pytorch -c nvidia
    instalación de pip -r requisitos.txt

    Descargue el punto de control desde aquí y extráigalo a la carpeta checkpoints .

Cómo utilizar OpenVoice

Nota: las cosas se vuelven un poco técnicas aquí. Si no tiene experiencia en codificación o no está familiarizado con los entornos Python, probablemente esto se le pase por alto. Pero si te gusta un poco de castigo, entonces sigamos adelante.

  • Control de estilo de voz flexible : puede ver un ejemplo de cómo OpenVoice permite un control de estilo flexible sobre la voz clonada en demo_part1.ipynb .
  • Clonación de voz entre idiomas : puede ver un ejemplo de idiomas vistos o no vistos en el conjunto de entrenamiento de MSML en demo_part2.ipynb .
  • Demostración de Gradio : puede iniciar una demostración local de Gradio con el siguiente comando en su terminal:
 python -m openvoice_app --share

Uso avanzado : el modelo de altavoz base se puede reemplazar con cualquier modelo (en cualquier idioma y estilo) que prefiera.

Openview coding example on a purple background
Imagen: KnowTechie

Puede utilizar la función se_extractor.get_se como se muestra en la demostración para extraer la incrustación de color de tono para el nuevo altavoz base.

2.5 Consejos para generar voz natural : existen muchos métodos TTS de uno o varios hablantes que pueden generar voz natural, que están fácilmente disponibles.

Simplemente reemplazando el modelo de altavoz base con el modelo que prefiera, puede llevar la naturalidad del habla al nivel que desee.

Tenga en cuenta que este repositorio tiene una licencia internacional Creative Commons Atribución-No Comercial 4.0, que prohíbe el uso comercial.

¿Cuánto cuesta OpenVoice?

Actualmente, el servicio es de uso gratuito y el equipo de MyShell.ai ha puesto a disposición el código fuente y el modelo entrenado en GitHub, lo que permite a los desarrolladores experimentar y ampliar la tecnología.

¿Cuál es el potencial de OpenVoice?

OpenVoice no es sólo un truco divertido.

Tiene el potencial de revolucionar industrias, desde el entretenimiento y los medios, donde podría usarse para doblar películas o crear chatbots personalizados, hasta la accesibilidad, donde podría dar voz a quienes han perdido la suya.

Si bien la posibilidad de uso indebido, como audio falso o robo de identidad, es motivo de preocupación, el equipo de MyShell.ai se compromete a seguir pautas éticas y explorar salvaguardas para evitar dicho uso indebido.

Ejemplo de tecnología de clonación de voz de Openvoice
Imagen: KnowTechie

En términos de velocidad y precisión, OpenVoice eclipsa a sus competidores. La herramienta es computacionalmente eficiente y el equipo afirma que puede generar un segundo de voz en sólo 85 milisegundos.

OpenVoice es una visión apasionante del futuro de la tecnología de voz.

Con su capacidad de clonar cualquier voz al instante, las posibilidades parecen infinitas. Entonces, ¿por qué no intentarlo y ver en quién podrías convertirte?

Los cerebros detrás de esta potencia incluyen a Zengyi Qin de los pasillos del MIT y MyShell, Wenliang Zhao y Xumin Yu, ambos de la Universidad de Tsinghua y, por último, pero no menos importante, Ethan Sun de MyShell.

¿Tiene alguna idea sobre esto? Escríbanos a continuación en los comentarios o lleve la discusión a nuestro Twitter o Facebook.

Recomendaciones de los editores:

  • ¿A quién pertenece ElevenLabs?
  • ¿Qué es ElevenLabs?
  • La apuesta de Figma por la IA de FigJam hará más llevaderas las reuniones
  • El AI Copilot de Microsoft despega en iOS

Solo un aviso: si compra algo a través de nuestros enlaces, es posible que obtengamos una pequeña parte de la venta. Es una de las formas en que mantenemos las luces encendidas aquí. Haga clic aquí para obtener más información.

Síguenos en Flipboard, Google News o Apple News