Ta strona internetowa pozwala sklonować głos dowolnej osoby w czasie krótszym niż 30 sekund
Opublikowany: 2024-01-04Czy kiedykolwiek chciałeś, aby urzekający głos Morgana Freemana opowiadał o Twoim codziennym życiu? A może wyobraziłeś sobie, jak Twój GPS mówi zmysłowymi tonami Scarlett Johansson?
Dzięki nowemu, innowacyjnemu narzędziu MyShell.ai o nazwie OpenVoice to i wiele więcej jest teraz w zasięgu ręki.
Więc co to jest? OpenVoice to narzędzie do natychmiastowego klonowania głosu, które może naśladować dowolny głos na podstawie krótkiej próbki audio.
Ale prawdziwa magia polega na tym, że nie ogranicza się to do naśladowania czyjegoś głosu; zasadniczo wybiera wszystkie swoje unikalne cechy.
OpenVoice umożliwia szczegółową kontrolę nad stylami głosu, w tym emocjami, akcentem, rytmem, pauzami i intonacją, czyli funkcją, której inne narzędzia do klonowania głosu po prostu nie oferują.
Technologia ta polega na maksymalnym oddzieleniu elementów głosu, co oznacza, że ton, styl i język są traktowane jako odrębne elementy.
Umożliwia to niezależną manipulację podstawowym głosem, stylem i językiem, oferując imponujący poziom dostosowywania.
Tym, co naprawdę odróżnia OpenVoice od swoich poprzedników, takich jak ElevenLabs, jest możliwość natychmiastowego klonowania głosu w różnych językach. Oznacza to, że OpenVoice może naśladować głosy w językach, które nie są uwzględnione w jego zestawie szkoleniowym.
Jeśli więc kiedykolwiek chciałeś, aby Twój audiobook był czytany po francusku głosem osoby mówiącej po angielsku, OpenVoice Ci to zapewni.
Jak sklonować głos za pomocą OpenVoice MyShell
Chociaż technologia jest złożona, korzystanie z OpenVoice jest zaskakująco proste.
Wystarczy krótki klip audio od żądanego mówcy, a w ciągu kilku sekund możesz wygenerować mowę głosem tej osoby, w wielu językach oraz z całą gamą emocji i stylów.
Oto przewodnik krok po kroku dotyczący korzystania z OpenVoice MyShell w oparciu o instrukcje podane na ich stronie GitHub:
Chociaż technologia jest złożona, korzystanie z OpenVoice jest zaskakująco proste.
Wystarczy krótki klip audio od żądanego mówcy, a w ciągu kilku sekund możesz wygenerować mowę głosem tej osoby, w wielu językach oraz z całą gamą emocji i stylów.
Sklonuj repozytorium OpenVoice
Możesz to zrobić, przechodząc do repozytorium OpenVoice GitHub i klikając zielony przycisk „Kod”. Następnie kliknij „Pobierz ZIP”, aby pobrać pliki repozytorium do systemu lokalnego.
Pobierz Zipa
Następnie kliknij „Pobierz ZIP”, aby pobrać pliki repozytorium do systemu lokalnego.
Utwórz i aktywuj środowisko Python
Utwórz nowe środowisko Python i aktywuj je. Jeśli używasz Anacondy, możesz to zrobić za pomocą następujących poleceń w terminalu:
conda utwórz -n openvoice python=3.9
conda aktywuj openvoiceZainstaluj wymagane pakiety
Aby zainstalować wymagane pakiety, możesz to zrobić za pomocą następujących poleceń w terminalu:
conda zainstaluj pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11,7 -c pytorch -c nvidia
pip install -r wymagania.txtPobierz stąd punkt kontrolny i rozpakuj go do folderu
checkpoints
.
Jak korzystać z OpenVoice
Uwaga: tutaj sytuacja jest nieco techniczna. Jeśli nie masz żadnego doświadczenia w kodowaniu lub nie znasz środowisk Python, prawdopodobnie przejdzie to przez twoją głowę. Ale jeśli lubisz odrobinę kary, przejdźmy dalej.
- Elastyczna kontrola stylu głosu : Przykład tego, jak OpenVoice umożliwia elastyczną kontrolę stylu nad sklonowanym głosem, możesz zobaczyć w
demo_part1.ipynb
. - Międzyjęzykowe klonowanie głosu : Przykład języków widocznych i niewidocznych można zobaczyć w zestawie szkoleniowym MSML w
demo_part2.ipynb
. - Demo Gradio : Możesz uruchomić lokalną wersję demonstracyjną Gradio za pomocą następującego polecenia w terminalu:
python -m openvoice_app --share
Zaawansowane użycie : Podstawowy model głośnika można zastąpić dowolnym modelem (w dowolnym języku i stylu), który preferujesz.
Możesz użyć funkcji se_extractor.get_se
, jak pokazano w wersji demonstracyjnej, aby wyodrębnić osadzenie koloru tonu dla nowego głośnika podstawowego.
2.5 Wskazówki dotyczące generowania naturalnej mowy : Istnieje wiele łatwo dostępnych metod TTS z jednym lub wieloma głośnikami, które mogą generować naturalną mowę.
Po prostu wymieniając podstawowy model głośnika na preferowany model, możesz zwiększyć naturalność mowy do pożądanego poziomu.
Ile kosztuje OpenVoice?
Usługa jest obecnie bezpłatna, a zespół MyShell.ai udostępnił kod źródłowy i przeszkolony model w GitHub, umożliwiając programistom eksperymentowanie i rozszerzanie technologii.
Jaki jest potencjał OpenVoice?
OpenVoice to nie tylko zabawny gadżet.
Ma potencjał zrewolucjonizowania branż, od rozrywki i mediów, gdzie można go wykorzystać do kopiowania filmów lub tworzenia spersonalizowanych chatbotów, po dostępność, gdzie może dać głos tym, którzy stracili własny.
Choć potencjalne nadużycia, takie jak deepfake audio lub kradzież tożsamości, budzą obawy, zespół MyShell.ai stara się przestrzegać wytycznych etycznych i badać zabezpieczenia zapobiegające takim nadużyciom.
Pod względem szybkości i dokładności OpenVoice przyćmiewa konkurencję. Narzędzie jest wydajne obliczeniowo, a zespół twierdzi, że może wygenerować sekundę mowy w zaledwie 85 milisekund.
OpenVoice to ekscytujące spojrzenie w przyszłość technologii głosowej.
Dzięki możliwości natychmiastowego klonowania dowolnego głosu możliwości wydają się nieograniczone. Dlaczego więc nie spróbować i zobaczyć, kim możesz się stać?
Do mózgów tej potęgi należą Zengyi Qin z sal MIT i MyShell, Wenliang Zhao i Xumin Yu, obaj z Uniwersytetu Tsinghua i wreszcie Ethan Sun z MyShell.
Masz jakieś przemyślenia na ten temat? Napisz do nas poniżej w komentarzach lub przenieś dyskusję na nasz Twitter lub Facebook.
Zalecenia redaktorów:
- Kto jest właścicielem ElevenLabs?
- Czym jest ElevenLabs?
- Figma postawiła na sztuczną inteligencję FigJam, dzięki czemu spotkania będą bardziej znośne
- AI Copilot firmy Microsoft zaczyna działać na iOS
Uwaga: jeśli kupisz coś za pośrednictwem naszych linków, możemy otrzymać niewielką część sprzedaży. To jeden ze sposobów, w jaki utrzymujemy tu włączone światła. Kliknij tutaj, aby uzyskać więcej.