Auf dieser Website können Sie die Stimme eines beliebigen Menschen in weniger als 30 Sekunden klonen

Veröffentlicht: 2024-01-04

Haben Sie sich jemals gewünscht, dass die fesselnde Stimme von Morgan Freeman Ihr tägliches Leben erzählt? Oder haben Sie sich vielleicht vorgestellt, dass Ihr GPS im schwülen Tonfall von Scarlett Johansson spricht?

Dank eines innovativen neuen Tools von MyShell.ai namens OpenVoice ist dies und noch viel mehr jetzt in greifbare Nähe gerückt.

Also, was ist es? OpenVoice ist ein Tool zum sofortigen Klonen von Stimmen, das jede Stimme aus nur einem kurzen Audiobeispiel nachahmen kann.

Aber die wahre Magie besteht darin, dass es nicht damit aufhört, die Stimme einer Person zu imitieren; Es pflückt im Wesentlichen alle seine einzigartigen Eigenschaften heraus.

OpenVoice ermöglicht eine detaillierte Kontrolle über Stimmstile, einschließlich Emotionen, Akzent, Rhythmus, Pausen und Intonation, eine Funktion, die andere Tools zum Klonen von Stimmen einfach nicht bieten.

Video: YouTube

Die Technologie funktioniert, indem sie die Komponenten einer Stimme so weit wie möglich entkoppelt, was bedeutet, dass Ton, Stil und Sprache als einzelne Elemente behandelt werden.

Dadurch können die Basisstimme, der Stil und die Sprache unabhängig voneinander manipuliert werden, was ein beeindruckendes Maß an Anpassungsmöglichkeiten bietet.

Was OpenVoice wirklich von seinen Vorgängern wie ElevenLabs unterscheidet, ist die Fähigkeit zum sprachübergreifenden Sprachklonen ohne Verzögerung. Das bedeutet, dass OpenVoice Stimmen in Sprachen nachahmen kann, die nicht in seinem Trainingssatz enthalten sind.

Wenn Sie also schon immer wollten, dass Ihr Hörbuch auf Französisch von der Stimme eines Englischsprachigen vorgelesen wird, ist OpenVoice genau das Richtige für Sie.

Video: YouTube

So klonen Sie eine Stimme mit OpenVoice von MyShell

Obwohl die Technologie komplex ist, ist die Verwendung von OpenVoice überraschend einfach.

Dazu ist lediglich ein kurzer Audioclip des gewünschten Sprechers erforderlich, und innerhalb von Sekunden können Sie eine Sprache mit der Stimme dieser Person, in mehreren Sprachen und mit einer Reihe von Emotionen und Stilen erzeugen.

Hier ist eine Schritt-für-Schritt-Anleitung zur Verwendung von MyShells OpenVoice basierend auf den Anweisungen auf der GitHub-Seite:

Kohlenstoff 1

Obwohl die Technologie komplex ist, ist die Verwendung von OpenVoice überraschend einfach.

Dazu ist lediglich ein kurzer Audioclip des gewünschten Sprechers erforderlich, und innerhalb von Sekunden können Sie eine Sprache mit der Stimme dieser Person, in mehreren Sprachen und mit einer Reihe von Emotionen und Stilen erzeugen.

  1. Klonen Sie das OpenVoice-Repository
    So installieren Sie OpenView MyShell. Ai

    Sie können dies tun, indem Sie zum OpenVoice GitHub-Repository navigieren und auf die grüne Schaltfläche „Code“ klicken. Klicken Sie dann auf „ZIP herunterladen“, um die Repository-Dateien auf Ihr lokales System herunterzuladen.

  2. Laden Sie Zip herunter
    So installieren Sie das OpenView-Tool zum Klonen von Stimmen

    Klicken Sie dann auf „ZIP herunterladen“, um die Repository-Dateien auf Ihr lokales System herunterzuladen.

  3. Erstellen und aktivieren Sie eine Python-Umgebung
    Kohlenstoff 1

    Erstellen Sie eine neue Python-Umgebung und aktivieren Sie sie. Wenn Sie Anaconda verwenden, können Sie dies mit den folgenden Befehlen in Ihrem Terminal tun:

    conda create -n openvoice python=3.9
    Conda aktiviert Openvoice

  4. Installieren Sie die erforderlichen Pakete
    Openview python enviorment

    Um die benötigten Pakete zu installieren, können Sie dies mit den folgenden Befehlen in Ihrem Terminal tun:

    Conda installiert Pytorch==1.13.1 Torchvision==0.14.1 Torchaudio==0.13.1 Pytorch-
    cuda=11.7 -c pytorch -c nvidia
    pip install -r Anforderungen.txt

    Laden Sie den Checkpoint hier herunter und extrahieren Sie ihn in den checkpoints Ordner.

So verwenden Sie OpenVoice

Hinweis: Hier wird es etwas technisch. Wenn Sie keine Programmiererfahrung haben oder mit Python-Umgebungen nicht vertraut sind, wird Ihnen dies wahrscheinlich über den Kopf gehen. Aber wenn Ihnen ein bisschen Bestrafung Spaß macht, dann lasst uns weitermachen.

  • Flexible Sprachstilsteuerung : Ein Beispiel dafür, wie OpenVoice eine flexible Stilsteuerung der geklonten Stimme ermöglicht, finden Sie in demo_part1.ipynb .
  • Sprachübergreifendes Klonen von Stimmen : Ein Beispiel für Sprachen, die im MSML-Trainingssatz sichtbar oder unsichtbar sind, finden Sie in demo_part2.ipynb .
  • Gradio-Demo : Sie können eine lokale Gradio-Demo mit dem folgenden Befehl in Ihrem Terminal starten:
 python -m openvoice_app --share

Erweiterte Verwendung : Das Basislautsprechermodell kann durch jedes beliebige Modell (in jeder Sprache und jedem Stil) Ihrer Wahl ersetzt werden.

Openview coding example on a purple background
Bild: KnowTechie

Sie können die Funktion se_extractor.get_se wie in der Demo gezeigt verwenden, um die Klangfarbeinbettung für den neuen Basislautsprecher zu extrahieren.

2.5 Tipps zur Erzeugung natürlicher Sprache : Es gibt viele TTS-Methoden für einen oder mehrere Sprecher, die natürliche Sprache erzeugen können und die leicht verfügbar sind.

Indem Sie einfach das Basislautsprechermodell durch das Modell Ihrer Wahl ersetzen, können Sie die Natürlichkeit der Sprache auf das gewünschte Niveau bringen.

Bitte beachten Sie, dass dieses Repository unter einer Creative Commons Attribution-NonCommercial 4.0 International License lizenziert ist, die eine kommerzielle Nutzung verbietet.

Wie viel kostet OpenVoice?

Die Nutzung des Dienstes ist derzeit kostenlos und das Team von MyShell.ai hat den Quellcode und das trainierte Modell auf GitHub zur Verfügung gestellt, sodass Entwickler experimentieren und die Technologie erweitern können.

Was ist das Potenzial von OpenVoice?

OpenVoice ist nicht nur eine lustige Spielerei.

Es hat das Potenzial, Branchen zu revolutionieren, von Unterhaltung und Medien, wo es zum Synchronisieren von Filmen oder der Erstellung personalisierter Chatbots verwendet werden könnte, bis hin zur Barrierefreiheit, wo es denjenigen eine Stimme geben könnte, die ihre eigene verloren haben.

Auch wenn die Möglichkeit eines Missbrauchs wie Deepfake-Audio oder Identitätsdiebstahl Anlass zur Sorge gibt, ist das Team von MyShell.ai bestrebt, ethische Richtlinien einzuhalten und Schutzmaßnahmen zu prüfen, um solchen Missbrauch zu verhindern.

Beispiel für die Openvoice-Technologie zum Klonen von Stimmen
Bild: KnowTechie

In puncto Geschwindigkeit und Genauigkeit übertrifft OpenVoice seine Konkurrenten. Das Tool ist recheneffizient und das Team gibt an, dass es eine Sprachsekunde in nur 85 Millisekunden erzeugen kann.

OpenVoice ist ein spannender Einblick in die Zukunft der Sprachtechnologie.

Mit der Möglichkeit, jede Stimme sofort zu klonen, scheinen die Möglichkeiten endlos zu sein. Warum probieren Sie es also nicht einmal aus und finden heraus, wer Sie werden könnten?

Zu den Köpfen hinter diesem Kraftpaket gehören Zengyi Qin vom MIT und MyShell, Wenliang Zhao und Xumin Yu, beide von der Tsinghua-Universität und nicht zuletzt Ethan Sun von MyShell.

Haben Sie irgendwelche Gedanken dazu? Schreiben Sie uns unten in die Kommentare oder tragen Sie die Diskussion auf Twitter oder Facebook weiter.

Empfehlungen der Redaktion:

  • Wem gehört ElevenLabs?
  • Was ist ElevenLabs?
  • Figmas Wette auf die KI von FigJam wird Meetings erträglicher machen
  • Der AI Copilot von Microsoft startet auf iOS

Nur als Hinweis: Wenn Sie etwas über unsere Links kaufen, erhalten wir möglicherweise einen kleinen Anteil am Verkauf. Das ist eine der Möglichkeiten, wie wir hier dafür sorgen, dass das Licht an bleibt. Klicken Sie hier für mehr.

Folgen Sie uns auf Flipboard, Google News oder Apple News