Ta strona internetowa pozwala sklonować głos dowolnej osoby w czasie krótszym niż 30 sekund

Opublikowany: 2024-01-04

Czy kiedykolwiek chciałeś, aby urzekający głos Morgana Freemana opowiadał o Twoim codziennym życiu? A może wyobraziłeś sobie, jak Twój GPS mówi zmysłowymi tonami Scarlett Johansson?

Dzięki nowemu, innowacyjnemu narzędziu MyShell.ai o nazwie OpenVoice to i wiele więcej jest teraz w zasięgu ręki.

Więc co to jest? OpenVoice to narzędzie do natychmiastowego klonowania głosu, które może naśladować dowolny głos na podstawie krótkiej próbki audio.

Ale prawdziwa magia polega na tym, że nie ogranicza się to do naśladowania czyjegoś głosu; zasadniczo wybiera wszystkie swoje unikalne cechy.

OpenVoice umożliwia szczegółową kontrolę nad stylami głosu, w tym emocjami, akcentem, rytmem, pauzami i intonacją, czyli funkcją, której inne narzędzia do klonowania głosu po prostu nie oferują.

Wideo: YouTube

Technologia ta polega na maksymalnym oddzieleniu elementów głosu, co oznacza, że ton, styl i język są traktowane jako odrębne elementy.

Umożliwia to niezależną manipulację podstawowym głosem, stylem i językiem, oferując imponujący poziom dostosowywania.

Tym, co naprawdę odróżnia OpenVoice od swoich poprzedników, takich jak ElevenLabs, jest możliwość natychmiastowego klonowania głosu w różnych językach. Oznacza to, że OpenVoice może naśladować głosy w językach, które nie są uwzględnione w jego zestawie szkoleniowym.

Jeśli więc kiedykolwiek chciałeś, aby Twój audiobook był czytany po francusku głosem osoby mówiącej po angielsku, OpenVoice Ci to zapewni.

Wideo: YouTube

Jak sklonować głos za pomocą OpenVoice MyShell

Chociaż technologia jest złożona, korzystanie z OpenVoice jest zaskakująco proste.

Wystarczy krótki klip audio od żądanego mówcy, a w ciągu kilku sekund możesz wygenerować mowę głosem tej osoby, w wielu językach oraz z całą gamą emocji i stylów.

Oto przewodnik krok po kroku dotyczący korzystania z OpenVoice MyShell w oparciu o instrukcje podane na ich stronie GitHub:

Chociaż technologia jest złożona, korzystanie z OpenVoice jest zaskakująco proste.

Wystarczy krótki klip audio od żądanego mówcy, a w ciągu kilku sekund możesz wygenerować mowę głosem tej osoby, w wielu językach oraz z całą gamą emocji i stylów.

Sklonuj repozytorium OpenVoice
Możesz to zrobić, przechodząc do repozytorium OpenVoice GitHub i klikając zielony przycisk „Kod”. Następnie kliknij „Pobierz ZIP”, aby pobrać pliki repozytorium do systemu lokalnego.
Pobierz Zipa
Następnie kliknij „Pobierz ZIP”, aby pobrać pliki repozytorium do systemu lokalnego.
Utwórz i aktywuj środowisko Python
Utwórz nowe środowisko Python i aktywuj je. Jeśli używasz Anacondy, możesz to zrobić za pomocą następujących poleceń w terminalu:
conda utwórz -n openvoice python=3.9
conda aktywuj openvoice
Zainstaluj wymagane pakiety
Aby zainstalować wymagane pakiety, możesz to zrobić za pomocą następujących poleceń w terminalu:

conda zainstaluj pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11,7 -c pytorch -c nvidia
pip install -r wymagania.txt
Pobierz stąd punkt kontrolny i rozpakuj go do folderu checkpoints .

Jak korzystać z OpenVoice

Uwaga: tutaj sytuacja jest nieco techniczna. Jeśli nie masz żadnego doświadczenia w kodowaniu lub nie znasz środowisk Python, prawdopodobnie przejdzie to przez twoją głowę. Ale jeśli lubisz odrobinę kary, przejdźmy dalej.

Elastyczna kontrola stylu głosu : Przykład tego, jak OpenVoice umożliwia elastyczną kontrolę stylu nad sklonowanym głosem, możesz zobaczyć w demo_part1.ipynb .
Międzyjęzykowe klonowanie głosu : Przykład języków widocznych i niewidocznych można zobaczyć w zestawie szkoleniowym MSML w demo_part2.ipynb .
Demo Gradio : Możesz uruchomić lokalną wersję demonstracyjną Gradio za pomocą następującego polecenia w terminalu:

 python -m openvoice_app --share

Zaawansowane użycie : Podstawowy model głośnika można zastąpić dowolnym modelem (w dowolnym języku i stylu), który preferujesz.

Openview coding example on a purple background — Zdjęcie: KnowTechie

Możesz użyć funkcji se_extractor.get_se , jak pokazano w wersji demonstracyjnej, aby wyodrębnić osadzenie koloru tonu dla nowego głośnika podstawowego.

2.5 Wskazówki dotyczące generowania naturalnej mowy : Istnieje wiele łatwo dostępnych metod TTS z jednym lub wieloma głośnikami, które mogą generować naturalną mowę.

Po prostu wymieniając podstawowy model głośnika na preferowany model, możesz zwiększyć naturalność mowy do pożądanego poziomu.

Należy pamiętać, że to repozytorium jest objęte licencją Creative Commons Uznanie autorstwa-Użycie niekomercyjne 4.0 Międzynarodowe, która zabrania wykorzystania komercyjnego.

Ile kosztuje OpenVoice?

Usługa jest obecnie bezpłatna, a zespół MyShell.ai udostępnił kod źródłowy i przeszkolony model w GitHub, umożliwiając programistom eksperymentowanie i rozszerzanie technologii.

Jaki jest potencjał OpenVoice?

OpenVoice to nie tylko zabawny gadżet.

Ma potencjał zrewolucjonizowania branż, od rozrywki i mediów, gdzie można go wykorzystać do kopiowania filmów lub tworzenia spersonalizowanych chatbotów, po dostępność, gdzie może dać głos tym, którzy stracili własny.

Choć potencjalne nadużycia, takie jak deepfake audio lub kradzież tożsamości, budzą obawy, zespół MyShell.ai stara się przestrzegać wytycznych etycznych i badać zabezpieczenia zapobiegające takim nadużyciom.

Przykład technologii klonowania głosu Openvoice — Zdjęcie: KnowTechie

Pod względem szybkości i dokładności OpenVoice przyćmiewa konkurencję. Narzędzie jest wydajne obliczeniowo, a zespół twierdzi, że może wygenerować sekundę mowy w zaledwie 85 milisekund.

OpenVoice to ekscytujące spojrzenie w przyszłość technologii głosowej.

Dzięki możliwości natychmiastowego klonowania dowolnego głosu możliwości wydają się nieograniczone. Dlaczego więc nie spróbować i zobaczyć, kim możesz się stać?

Do mózgów tej potęgi należą Zengyi Qin z sal MIT i MyShell, Wenliang Zhao i Xumin Yu, obaj z Uniwersytetu Tsinghua i wreszcie Ethan Sun z MyShell.

Masz jakieś przemyślenia na ten temat? Napisz do nas poniżej w komentarzach lub przenieś dyskusję na nasz Twitter lub Facebook.

Zalecenia redaktorów:

Kto jest właścicielem ElevenLabs?
Czym jest ElevenLabs?
Figma postawiła na sztuczną inteligencję FigJam, dzięki czemu spotkania będą bardziej znośne
AI Copilot firmy Microsoft zaczyna działać na iOS

Uwaga: jeśli kupisz coś za pośrednictwem naszych linków, możemy otrzymać niewielką część sprzedaży. To jeden ze sposobów, w jaki utrzymujemy tu włączone światła. Kliknij tutaj, aby uzyskać więcej.

Ta strona internetowa pozwala sklonować głos dowolnej osoby w czasie krótszym niż 30 sekund

Jak sklonować głos za pomocą OpenVoice MyShell

Sklonuj repozytorium OpenVoice

Pobierz Zipa

Utwórz i aktywuj środowisko Python

Zainstaluj wymagane pakiety

Jak korzystać z OpenVoice

Ile kosztuje OpenVoice?

Jaki jest potencjał OpenVoice?

Śledź nas na Flipboard, Google News lub Apple News