Situs web ini memungkinkan Anda mengkloning suara siapa pun dalam waktu kurang dari 30 detik

Diterbitkan: 2024-01-04

Pernahkah Anda berharap suara menawan Morgan Freeman menceritakan kehidupan sehari-hari Anda? Atau mungkin Anda pernah membayangkan GPS Anda berbicara dengan nada gerah Scarlett Johansson?

Berkat alat baru yang inovatif dari MyShell.ai, yang disebut OpenVoice, alat ini dan masih banyak lagi kini dapat dijangkau.

Jadi, apa itu? OpenVoice adalah alat kloning suara instan yang dapat meniru suara apa pun hanya dari sampel audio singkat.

Namun keajaiban sebenarnya adalah hal ini tidak berhenti pada meniru suara seseorang; pada dasarnya ia memilih semua karakteristik uniknya.

OpenVoice memungkinkan kontrol terperinci atas gaya suara, termasuk emosi, aksen, ritme, jeda, dan intonasi, sebuah fitur yang tidak ditawarkan oleh alat kloning suara lainnya.

Video: YouTube

Teknologi ini bekerja dengan memisahkan komponen-komponen suara sebanyak mungkin, yang berarti nada, gaya, dan bahasa diperlakukan sebagai elemen individual.

Hal ini memungkinkan suara dasar, gaya, dan bahasa dimanipulasi secara independen, menawarkan tingkat penyesuaian yang mengesankan.

Apa yang benar-benar membedakan OpenVoice dari pendahulunya, seperti ElevenLabs, adalah kemampuan kloning suara lintas bahasa yang zero-shot. Artinya OpenVoice bisa meniru suara dalam bahasa yang tidak disertakan dalam set pelatihannya.

Jadi, jika Anda ingin buku audio Anda dibacakan dalam bahasa Prancis dengan suara penutur bahasa Inggris, OpenVoice siap membantu Anda.

Video: YouTube

Cara mengkloning suara dengan OpenVoice MyShell

Meskipun teknologinya rumit, penggunaan OpenVoice ternyata sangat sederhana.

Yang diperlukan hanyalah klip audio pendek dari pembicara yang diinginkan, dan dalam hitungan detik, Anda dapat menghasilkan ucapan dengan suara orang tersebut, dalam berbagai bahasa, dan dengan berbagai emosi dan gaya.

Berikut panduan langkah demi langkah tentang cara menggunakan OpenVoice MyShell berdasarkan instruksi yang diberikan di halaman GitHub mereka:

Karbon 1

Meskipun teknologinya rumit, penggunaan OpenVoice ternyata sangat sederhana.

Yang diperlukan hanyalah klip audio pendek dari pembicara yang diinginkan, dan dalam hitungan detik, Anda dapat menghasilkan ucapan dengan suara orang tersebut, dalam berbagai bahasa, dan dengan berbagai emosi dan gaya.

  1. Kloning repositori OpenVoice
    Bagaimana cara menginstal openview myshell. Ai

    Anda dapat melakukan ini dengan menavigasi ke repositori OpenVoice GitHub dan mengklik tombol hijau 'Kode'. Kemudian klik 'Unduh ZIP' untuk mengunduh file repositori ke sistem lokal Anda.

  2. Unduh Zip
    Cara memasang alat kloning suara openview

    Kemudian klik 'Unduh ZIP' untuk mengunduh file repositori ke sistem lokal Anda.

  3. Buat dan aktifkan lingkungan Python
    Karbon 1

    Buat lingkungan Python baru dan aktifkan. Jika Anda menggunakan Anaconda, Anda dapat melakukannya dengan perintah berikut di terminal Anda:

    conda buat -n suara terbuka python=3.9
    conda mengaktifkan suara terbuka

  4. Instal paket yang diperlukan
    Openview python enviorment

    Untuk menginstal paket yang diperlukan, Anda dapat melakukannya dengan perintah berikut di terminal Anda:

    conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
    cuda=11,7 -c pytorch -c nvidia
    instalasi pip -r persyaratan.txt

    Unduh pos pemeriksaan dari sini dan ekstrak ke folder checkpoints .

Cara menggunakan OpenVoice

Catatan: Segalanya menjadi sedikit teknis di sini. Jika Anda tidak memiliki pengalaman pengkodean atau tidak terbiasa dengan lingkungan Python, ini mungkin akan membuat Anda bingung. Namun jika Anda menikmati sedikit hukuman, mari kita lanjutkan.

  • Kontrol Gaya Suara Fleksibel : Anda dapat melihat contoh bagaimana OpenVoice mengaktifkan kontrol gaya fleksibel atas suara kloning di demo_part1.ipynb .
  • Kloning Suara Lintas Bahasa : Anda dapat melihat contoh bahasa yang terlihat atau tidak terlihat dalam set pelatihan MSML di demo_part2.ipynb .
  • Gradio Demo : Anda dapat meluncurkan demo Gradio lokal dengan perintah berikut di terminal Anda:
 python -m openvoice_app --share

Penggunaan Lanjutan : Model speaker dasar dapat diganti dengan model apa pun (dalam bahasa dan gaya apa pun) yang Anda sukai.

Openview coding example on a purple background
Gambar: TahuTechie

Anda dapat menggunakan fungsi se_extractor.get_se seperti yang ditunjukkan dalam demo untuk mengekstrak penyematan warna nada untuk speaker dasar baru.

2.5 Tips Menghasilkan Ucapan Alami : Ada banyak metode TTS single atau multi-speaker yang dapat menghasilkan ucapan alami, yang sudah tersedia.

Cukup dengan mengganti model speaker dasar dengan model yang Anda sukai, Anda dapat meningkatkan kealamian ucapan ke tingkat yang Anda inginkan.

Harap dicatat bahwa repositori ini dilisensikan di bawah Lisensi Internasional Creative Commons Attribution-NonCommercial 4.0, yang melarang penggunaan komersial.

Berapa biaya OpenVoice?

Layanan ini saat ini gratis untuk digunakan, dan tim di MyShell.ai telah menyediakan kode sumber dan model terlatih di GitHub, memungkinkan pengembang bereksperimen dan memperluas teknologinya.

Apa potensi OpenVoice?

OpenVoice bukan sekadar gimmick yang menyenangkan.

Teknologi ini memiliki potensi untuk merevolusi industri, mulai dari hiburan dan media, yang dapat digunakan untuk melakukan dubbing pada film atau membuat chatbot yang dipersonalisasi, hingga aksesibilitas, yang dapat memberikan suara kepada mereka yang kehilangan haknya.

Meskipun potensi penyalahgunaan, seperti audio deepfake atau pencurian identitas, merupakan kekhawatiran, tim di MyShell.ai berkomitmen untuk mengikuti pedoman etika dan mengeksplorasi perlindungan untuk mencegah penyalahgunaan tersebut.

Contoh teknologi kloning suara Openvoice
Gambar: TahuTechie

Dalam hal kecepatan dan akurasi, OpenVoice mengungguli pesaingnya. Alat ini efisien secara komputasi, dan tim mengklaim alat ini dapat menghasilkan satu detik ucapan hanya dalam 85 milidetik.

OpenVoice adalah gambaran menarik tentang masa depan teknologi suara.

Dengan kemampuannya untuk mengkloning suara apa pun secara instan, kemungkinannya tampak tidak terbatas. Jadi mengapa tidak mencobanya dan lihat Anda bisa menjadi siapa?

Otak di balik pembangkit tenaga listrik ini termasuk Zengyi Qin dari MIT dan MyShell, Wenliang Zhao, dan Xumin Yu, keduanya dari Universitas Tsinghua dan yang terakhir, Ethan Sun dari MyShell.

Punya pemikiran mengenai hal ini? Kirimi kami baris di bawah di komentar, atau bawa diskusi ke Twitter atau Facebook kami.

Rekomendasi Editor:

  • Siapa pemilik ElevenLabs?
  • Apa itu ElevenLabs?
  • Taruhan Figma pada AI FigJam akan membuat rapat lebih dapat ditanggung
  • AI Copilot Microsoft terbang di iOS

Perlu diingat, jika Anda membeli sesuatu melalui tautan kami, kami mungkin mendapat sebagian kecil dari penjualan tersebut. Itu salah satu cara kami menjaga lampu tetap menyala di sini. Klik di sini untuk informasi lebih lanjut.

Ikuti kami di Flipboard, Google Berita, atau Apple News