Questo sito Web ti consente di clonare la voce di chiunque in meno di 30 secondi
Pubblicato: 2024-01-04Hai mai desiderato che la voce accattivante di Morgan Freeman raccontasse la tua vita quotidiana? O forse hai immaginato che il tuo GPS parlasse con i toni sensuali di Scarlett Johansson?
Grazie a un nuovo strumento innovativo di MyShell.ai, chiamato OpenVoice, questo e molto altro ancora è ora a portata di mano.
Quindi, cos'è? OpenVoice è uno strumento di clonazione vocale istantanea in grado di imitare qualsiasi voce da un breve campione audio.
Ma la vera magia è che non si limita a imitare la voce di qualcuno; essenzialmente sceglie tutte le sue caratteristiche uniche.
OpenVoice consente un controllo granulare sugli stili vocali, inclusi emozione, accento, ritmo, pause e intonazione, una funzionalità che altri strumenti di clonazione vocale semplicemente non offrono.
La tecnologia funziona disaccoppiando il più possibile le componenti di una voce, il che significa che il tono, lo stile e il linguaggio vengono trattati come elementi individuali.
Ciò consente di manipolare la voce, lo stile e il linguaggio di base in modo indipendente, offrendo un livello impressionante di personalizzazione.
Ciò che distingue davvero OpenVoice dai suoi predecessori, come ElevenLabs, è la sua capacità di clonazione vocale multilingue a colpo zero. Ciò significa che OpenVoice può imitare le voci in lingue che non sono incluse nel suo set di formazione.
Quindi, se hai sempre desiderato che il tuo audiolibro fosse letto in francese dalla voce di una persona che parla inglese, OpenVoice è quello che fa per te.
Come clonare una voce con OpenVoice di MyShell
Sebbene la tecnologia sia complessa, l'utilizzo di OpenVoice è sorprendentemente semplice.
Tutto ciò che serve è un breve clip audio dell'oratore desiderato e, in pochi secondi, puoi generare un discorso con la voce di quella persona, in più lingue e con una gamma di emozioni e stili.
Ecco una guida passo passo su come utilizzare OpenVoice di MyShell in base alle istruzioni fornite nella loro pagina GitHub:
Sebbene la tecnologia sia complessa, l'utilizzo di OpenVoice è sorprendentemente semplice.
Tutto ciò che serve è un breve clip audio dell'oratore desiderato e, in pochi secondi, puoi generare un discorso con la voce di quella persona, in più lingue e con una gamma di emozioni e stili.
Clona il repository OpenVoice
Puoi farlo accedendo al repository OpenVoice GitHub e facendo clic sul pulsante verde "Codice". Quindi fare clic su "Scarica ZIP" per scaricare i file del repository sul sistema locale.
Scarica Zip
Quindi fare clic su "Scarica ZIP" per scaricare i file del repository sul sistema locale.
Creare e attivare un ambiente Python
Crea un nuovo ambiente Python e attivalo. Se stai usando Anaconda, puoi farlo con i seguenti comandi nel tuo terminale:
conda create -n openvoice python=3.9
conda attiva openvoiceInstalla i pacchetti richiesti
Per installare i pacchetti richiesti, puoi farlo con i seguenti comandi nel tuo terminale:
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c nvidia
pip install -r requisiti.txtScarica il checkpoint da qui ed estrailo nella cartella
checkpoints
.
Come utilizzare OpenVoice
Nota: qui le cose diventano un po' tecniche. Se non hai alcuna esperienza di programmazione o non hai familiarità con gli ambienti Python, probabilmente questo ti andrà per la testa. Ma se ti piace un po' di punizione, allora andiamo avanti.
- Controllo flessibile dello stile vocale : puoi vedere un esempio di come OpenVoice abilita il controllo flessibile dello stile sulla voce clonata in
demo_part1.ipynb
. - Clonazione vocale interlinguistica : puoi vedere un esempio per le lingue viste o non viste nel set di formazione MSML in
demo_part2.ipynb
. - Gradio Demo : puoi avviare una demo Gradio locale con il seguente comando nel tuo terminale:
python -m openvoice_app --share
Utilizzo avanzato : il modello di altoparlante base può essere sostituito con qualsiasi modello (in qualsiasi lingua e stile) preferito.
È possibile utilizzare la funzione se_extractor.get_se
come dimostrato nella demo per estrarre l'incorporamento del colore del tono per il nuovo altoparlante di base.
2.5 Suggerimenti per generare un parlato naturale : Esistono molti metodi TTS a singolo o multi-parlante in grado di generare un parlato naturale, che sono facilmente disponibili.
Sostituendo semplicemente il modello di altoparlante base con il modello che preferisci, puoi spingere la naturalezza del parlato al livello che desideri.
Quanto costa OpenVoice?
Il servizio è attualmente gratuito e il team di MyShell.ai ha reso disponibile il codice sorgente e il modello addestrato su GitHub, consentendo agli sviluppatori di sperimentare ed estendere la tecnologia.
Qual è il potenziale di OpenVoice?
OpenVoice non è solo un espediente divertente.
Ha il potenziale per rivoluzionare i settori, da quello dell’intrattenimento e dei media, dove potrebbe essere utilizzato per doppiare film o creare chatbot personalizzati, all’accessibilità, dove potrebbe dare voce a coloro che hanno perso la propria.
Sebbene il potenziale di uso improprio, come audio deepfake o furto di identità, sia preoccupante, il team di MyShell.ai si impegna a seguire le linee guida etiche e ad esplorare misure di salvaguardia per prevenire tale uso improprio.
In termini di velocità e precisione, OpenVoice supera i suoi concorrenti. Lo strumento è efficiente dal punto di vista computazionale e il team afferma che può generare un secondo di discorso in soli 85 millisecondi.
OpenVoice è uno sguardo emozionante sul futuro della tecnologia vocale.
Con la sua capacità di clonare qualsiasi voce all'istante, le possibilità sembrano infinite. Allora perché non provarci e vedere chi potresti diventare?
I cervelli dietro questa centrale elettrica includono Zengyi Qin delle sale del MIT e MyShell, Wenliang Zhao e Xumin Yu, entrambi dell'Università Tsinghua e, ultimo ma non meno importante, Ethan Sun di MyShell.
Hai qualche idea su questo? Mandaci una riga qui sotto nei commenti o porta la discussione sul nostro Twitter o Facebook.
Raccomandazioni degli editori:
- Chi possiede ElevenLabs?
- Cos'è ElevenLabs?
- La scommessa di Figma sull'intelligenza artificiale di FigJam renderà le riunioni più sopportabili
- L'AI Copilot di Microsoft prende il volo su iOS
Solo un avvertimento: se acquisti qualcosa tramite i nostri link, potremmo ottenere una piccola quota della vendita. È uno dei modi in cui manteniamo le luci accese qui. Clicca qui per ulteriori informazioni.