Questo sito Web ti consente di clonare la voce di chiunque in meno di 30 secondi

Pubblicato: 2024-01-04

Hai mai desiderato che la voce accattivante di Morgan Freeman raccontasse la tua vita quotidiana? O forse hai immaginato che il tuo GPS parlasse con i toni sensuali di Scarlett Johansson?

Grazie a un nuovo strumento innovativo di MyShell.ai, chiamato OpenVoice, questo e molto altro ancora è ora a portata di mano.

Quindi, cos'è? OpenVoice è uno strumento di clonazione vocale istantanea in grado di imitare qualsiasi voce da un breve campione audio.

Ma la vera magia è che non si limita a imitare la voce di qualcuno; essenzialmente sceglie tutte le sue caratteristiche uniche.

OpenVoice consente un controllo granulare sugli stili vocali, inclusi emozione, accento, ritmo, pause e intonazione, una funzionalità che altri strumenti di clonazione vocale semplicemente non offrono.

Video: YouTube

La tecnologia funziona disaccoppiando il più possibile le componenti di una voce, il che significa che il tono, lo stile e il linguaggio vengono trattati come elementi individuali.

Ciò consente di manipolare la voce, lo stile e il linguaggio di base in modo indipendente, offrendo un livello impressionante di personalizzazione.

Ciò che distingue davvero OpenVoice dai suoi predecessori, come ElevenLabs, è la sua capacità di clonazione vocale multilingue a colpo zero. Ciò significa che OpenVoice può imitare le voci in lingue che non sono incluse nel suo set di formazione.

Quindi, se hai sempre desiderato che il tuo audiolibro fosse letto in francese dalla voce di una persona che parla inglese, OpenVoice è quello che fa per te.

Video: YouTube

Come clonare una voce con OpenVoice di MyShell

Sebbene la tecnologia sia complessa, l'utilizzo di OpenVoice è sorprendentemente semplice.

Tutto ciò che serve è un breve clip audio dell'oratore desiderato e, in pochi secondi, puoi generare un discorso con la voce di quella persona, in più lingue e con una gamma di emozioni e stili.

Ecco una guida passo passo su come utilizzare OpenVoice di MyShell in base alle istruzioni fornite nella loro pagina GitHub:

Carbonio 1

Sebbene la tecnologia sia complessa, l'utilizzo di OpenVoice è sorprendentemente semplice.

Tutto ciò che serve è un breve clip audio dell'oratore desiderato e, in pochi secondi, puoi generare un discorso con la voce di quella persona, in più lingue e con una gamma di emozioni e stili.

  1. Clona il repository OpenVoice
    Come installare openview myshell. Ai

    Puoi farlo accedendo al repository OpenVoice GitHub e facendo clic sul pulsante verde "Codice". Quindi fare clic su "Scarica ZIP" per scaricare i file del repository sul sistema locale.

  2. Scarica Zip
    Come installare lo strumento di clonazione vocale di OpenView

    Quindi fare clic su "Scarica ZIP" per scaricare i file del repository sul sistema locale.

  3. Creare e attivare un ambiente Python
    Carbonio 1

    Crea un nuovo ambiente Python e attivalo. Se stai usando Anaconda, puoi farlo con i seguenti comandi nel tuo terminale:

    conda create -n openvoice python=3.9
    conda attiva openvoice

  4. Installa i pacchetti richiesti
    Openview python enviorment

    Per installare i pacchetti richiesti, puoi farlo con i seguenti comandi nel tuo terminale:

    conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
    cuda=11.7 -c pytorch -c nvidia
    pip install -r requisiti.txt

    Scarica il checkpoint da qui ed estrailo nella cartella checkpoints .

Come utilizzare OpenVoice

Nota: qui le cose diventano un po' tecniche. Se non hai alcuna esperienza di programmazione o non hai familiarità con gli ambienti Python, probabilmente questo ti andrà per la testa. Ma se ti piace un po' di punizione, allora andiamo avanti.

  • Controllo flessibile dello stile vocale : puoi vedere un esempio di come OpenVoice abilita il controllo flessibile dello stile sulla voce clonata in demo_part1.ipynb .
  • Clonazione vocale interlinguistica : puoi vedere un esempio per le lingue viste o non viste nel set di formazione MSML in demo_part2.ipynb .
  • Gradio Demo : puoi avviare una demo Gradio locale con il seguente comando nel tuo terminale:
 python -m openvoice_app --share

Utilizzo avanzato : il modello di altoparlante base può essere sostituito con qualsiasi modello (in qualsiasi lingua e stile) preferito.

Openview coding example on a purple background
Immagine: KnowTechie

È possibile utilizzare la funzione se_extractor.get_se come dimostrato nella demo per estrarre l'incorporamento del colore del tono per il nuovo altoparlante di base.

2.5 Suggerimenti per generare un parlato naturale : Esistono molti metodi TTS a singolo o multi-parlante in grado di generare un parlato naturale, che sono facilmente disponibili.

Sostituendo semplicemente il modello di altoparlante base con il modello che preferisci, puoi spingere la naturalezza del parlato al livello che desideri.

Tieni presente che questo repository è concesso in licenza in base alla licenza internazionale Creative Commons Attribution-NonCommercial 4.0, che vieta l'uso commerciale.

Quanto costa OpenVoice?

Il servizio è attualmente gratuito e il team di MyShell.ai ha reso disponibile il codice sorgente e il modello addestrato su GitHub, consentendo agli sviluppatori di sperimentare ed estendere la tecnologia.

Qual è il potenziale di OpenVoice?

OpenVoice non è solo un espediente divertente.

Ha il potenziale per rivoluzionare i settori, da quello dell’intrattenimento e dei media, dove potrebbe essere utilizzato per doppiare film o creare chatbot personalizzati, all’accessibilità, dove potrebbe dare voce a coloro che hanno perso la propria.

Sebbene il potenziale di uso improprio, come audio deepfake o furto di identità, sia preoccupante, il team di MyShell.ai si impegna a seguire le linee guida etiche e ad esplorare misure di salvaguardia per prevenire tale uso improprio.

Esempio di tecnologia di clonazione vocale Openvoice
Immagine: KnowTechie

In termini di velocità e precisione, OpenVoice supera i suoi concorrenti. Lo strumento è efficiente dal punto di vista computazionale e il team afferma che può generare un secondo di discorso in soli 85 millisecondi.

OpenVoice è uno sguardo emozionante sul futuro della tecnologia vocale.

Con la sua capacità di clonare qualsiasi voce all'istante, le possibilità sembrano infinite. Allora perché non provarci e vedere chi potresti diventare?

I cervelli dietro questa centrale elettrica includono Zengyi Qin delle sale del MIT e MyShell, Wenliang Zhao e Xumin Yu, entrambi dell'Università Tsinghua e, ultimo ma non meno importante, Ethan Sun di MyShell.

Hai qualche idea su questo? Mandaci una riga qui sotto nei commenti o porta la discussione sul nostro Twitter o Facebook.

Raccomandazioni degli editori:

  • Chi possiede ElevenLabs?
  • Cos'è ElevenLabs?
  • La scommessa di Figma sull'intelligenza artificiale di FigJam renderà le riunioni più sopportabili
  • L'AI Copilot di Microsoft prende il volo su iOS

Solo un avvertimento: se acquisti qualcosa tramite i nostri link, potremmo ottenere una piccola quota della vendita. È uno dei modi in cui manteniamo le luci accese qui. Clicca qui per ulteriori informazioni.

Seguici su Flipboard, Google News o Apple News