Auf dieser Website können Sie die Stimme eines beliebigen Menschen in weniger als 30 Sekunden klonen
Veröffentlicht: 2024-01-04Haben Sie sich jemals gewünscht, dass die fesselnde Stimme von Morgan Freeman Ihr tägliches Leben erzählt? Oder haben Sie sich vielleicht vorgestellt, dass Ihr GPS im schwülen Tonfall von Scarlett Johansson spricht?
Dank eines innovativen neuen Tools von MyShell.ai namens OpenVoice ist dies und noch viel mehr jetzt in greifbare Nähe gerückt.
Also, was ist es? OpenVoice ist ein Tool zum sofortigen Klonen von Stimmen, das jede Stimme aus nur einem kurzen Audiobeispiel nachahmen kann.
Aber die wahre Magie besteht darin, dass es nicht damit aufhört, die Stimme einer Person zu imitieren; Es pflückt im Wesentlichen alle seine einzigartigen Eigenschaften heraus.
OpenVoice ermöglicht eine detaillierte Kontrolle über Stimmstile, einschließlich Emotionen, Akzent, Rhythmus, Pausen und Intonation, eine Funktion, die andere Tools zum Klonen von Stimmen einfach nicht bieten.
Die Technologie funktioniert, indem sie die Komponenten einer Stimme so weit wie möglich entkoppelt, was bedeutet, dass Ton, Stil und Sprache als einzelne Elemente behandelt werden.
Dadurch können die Basisstimme, der Stil und die Sprache unabhängig voneinander manipuliert werden, was ein beeindruckendes Maß an Anpassungsmöglichkeiten bietet.
Was OpenVoice wirklich von seinen Vorgängern wie ElevenLabs unterscheidet, ist die Fähigkeit zum sprachübergreifenden Sprachklonen ohne Verzögerung. Das bedeutet, dass OpenVoice Stimmen in Sprachen nachahmen kann, die nicht in seinem Trainingssatz enthalten sind.
Wenn Sie also schon immer wollten, dass Ihr Hörbuch auf Französisch von der Stimme eines Englischsprachigen vorgelesen wird, ist OpenVoice genau das Richtige für Sie.
So klonen Sie eine Stimme mit OpenVoice von MyShell
Obwohl die Technologie komplex ist, ist die Verwendung von OpenVoice überraschend einfach.
Dazu ist lediglich ein kurzer Audioclip des gewünschten Sprechers erforderlich, und innerhalb von Sekunden können Sie eine Sprache mit der Stimme dieser Person, in mehreren Sprachen und mit einer Reihe von Emotionen und Stilen erzeugen.
Hier ist eine Schritt-für-Schritt-Anleitung zur Verwendung von MyShells OpenVoice basierend auf den Anweisungen auf der GitHub-Seite:
Obwohl die Technologie komplex ist, ist die Verwendung von OpenVoice überraschend einfach.
Dazu ist lediglich ein kurzer Audioclip des gewünschten Sprechers erforderlich, und innerhalb von Sekunden können Sie eine Sprache mit der Stimme dieser Person, in mehreren Sprachen und mit einer Reihe von Emotionen und Stilen erzeugen.
Klonen Sie das OpenVoice-Repository
Sie können dies tun, indem Sie zum OpenVoice GitHub-Repository navigieren und auf die grüne Schaltfläche „Code“ klicken. Klicken Sie dann auf „ZIP herunterladen“, um die Repository-Dateien auf Ihr lokales System herunterzuladen.
Laden Sie Zip herunter
Klicken Sie dann auf „ZIP herunterladen“, um die Repository-Dateien auf Ihr lokales System herunterzuladen.
Erstellen und aktivieren Sie eine Python-Umgebung
Erstellen Sie eine neue Python-Umgebung und aktivieren Sie sie. Wenn Sie Anaconda verwenden, können Sie dies mit den folgenden Befehlen in Ihrem Terminal tun:
conda create -n openvoice python=3.9
Conda aktiviert OpenvoiceInstallieren Sie die erforderlichen Pakete
Um die benötigten Pakete zu installieren, können Sie dies mit den folgenden Befehlen in Ihrem Terminal tun:
Conda installiert Pytorch==1.13.1 Torchvision==0.14.1 Torchaudio==0.13.1 Pytorch-
cuda=11.7 -c pytorch -c nvidia
pip install -r Anforderungen.txtLaden Sie den Checkpoint hier herunter und extrahieren Sie ihn in den
checkpoints
Ordner.
So verwenden Sie OpenVoice
Hinweis: Hier wird es etwas technisch. Wenn Sie keine Programmiererfahrung haben oder mit Python-Umgebungen nicht vertraut sind, wird Ihnen dies wahrscheinlich über den Kopf gehen. Aber wenn Ihnen ein bisschen Bestrafung Spaß macht, dann lasst uns weitermachen.
- Flexible Sprachstilsteuerung : Ein Beispiel dafür, wie OpenVoice eine flexible Stilsteuerung der geklonten Stimme ermöglicht, finden Sie in
demo_part1.ipynb
. - Sprachübergreifendes Klonen von Stimmen : Ein Beispiel für Sprachen, die im MSML-Trainingssatz sichtbar oder unsichtbar sind, finden Sie in
demo_part2.ipynb
. - Gradio-Demo : Sie können eine lokale Gradio-Demo mit dem folgenden Befehl in Ihrem Terminal starten:
python -m openvoice_app --share
Erweiterte Verwendung : Das Basislautsprechermodell kann durch jedes beliebige Modell (in jeder Sprache und jedem Stil) Ihrer Wahl ersetzt werden.
Sie können die Funktion se_extractor.get_se
wie in der Demo gezeigt verwenden, um die Klangfarbeinbettung für den neuen Basislautsprecher zu extrahieren.
2.5 Tipps zur Erzeugung natürlicher Sprache : Es gibt viele TTS-Methoden für einen oder mehrere Sprecher, die natürliche Sprache erzeugen können und die leicht verfügbar sind.
Indem Sie einfach das Basislautsprechermodell durch das Modell Ihrer Wahl ersetzen, können Sie die Natürlichkeit der Sprache auf das gewünschte Niveau bringen.
Wie viel kostet OpenVoice?
Die Nutzung des Dienstes ist derzeit kostenlos und das Team von MyShell.ai hat den Quellcode und das trainierte Modell auf GitHub zur Verfügung gestellt, sodass Entwickler experimentieren und die Technologie erweitern können.
Was ist das Potenzial von OpenVoice?
OpenVoice ist nicht nur eine lustige Spielerei.
Es hat das Potenzial, Branchen zu revolutionieren, von Unterhaltung und Medien, wo es zum Synchronisieren von Filmen oder der Erstellung personalisierter Chatbots verwendet werden könnte, bis hin zur Barrierefreiheit, wo es denjenigen eine Stimme geben könnte, die ihre eigene verloren haben.
Auch wenn die Möglichkeit eines Missbrauchs wie Deepfake-Audio oder Identitätsdiebstahl Anlass zur Sorge gibt, ist das Team von MyShell.ai bestrebt, ethische Richtlinien einzuhalten und Schutzmaßnahmen zu prüfen, um solchen Missbrauch zu verhindern.
In puncto Geschwindigkeit und Genauigkeit übertrifft OpenVoice seine Konkurrenten. Das Tool ist recheneffizient und das Team gibt an, dass es eine Sprachsekunde in nur 85 Millisekunden erzeugen kann.
OpenVoice ist ein spannender Einblick in die Zukunft der Sprachtechnologie.
Mit der Möglichkeit, jede Stimme sofort zu klonen, scheinen die Möglichkeiten endlos zu sein. Warum probieren Sie es also nicht einmal aus und finden heraus, wer Sie werden könnten?
Zu den Köpfen hinter diesem Kraftpaket gehören Zengyi Qin vom MIT und MyShell, Wenliang Zhao und Xumin Yu, beide von der Tsinghua-Universität und nicht zuletzt Ethan Sun von MyShell.
Haben Sie irgendwelche Gedanken dazu? Schreiben Sie uns unten in die Kommentare oder tragen Sie die Diskussion auf Twitter oder Facebook weiter.
Empfehlungen der Redaktion:
- Wem gehört ElevenLabs?
- Was ist ElevenLabs?
- Figmas Wette auf die KI von FigJam wird Meetings erträglicher machen
- Der AI Copilot von Microsoft startet auf iOS
Nur als Hinweis: Wenn Sie etwas über unsere Links kaufen, erhalten wir möglicherweise einen kleinen Anteil am Verkauf. Das ist eine der Möglichkeiten, wie wir hier dafür sorgen, dass das Licht an bleibt. Klicken Sie hier für mehr.