Bu web sitesi herhangi birinin sesini 30 saniyeden kısa sürede kopyalamanıza olanak tanır

Yayınlanan: 2024-01-04

Hiç Morgan Freeman'ın büyüleyici sesinin günlük hayatınızı anlatmasını istediniz mi? Ya da belki GPS'inizin Scarlett Johansson'un ateşli tonlarında konuştuğunu hayal ettiniz mi?

MyShell.ai'nin OpenVoice adlı yenilikçi yeni aracı sayesinde, bu ve çok daha fazlasına artık erişilebiliyor.

Peki nedir bu? OpenVoice, yalnızca kısa bir ses örneğinden herhangi bir sesi taklit edebilen anında bir ses klonlama aracıdır.

Ancak asıl sihir, birinin sesini taklit etmekten ibaret olmamasıdır; aslında tüm benzersiz özelliklerini özenle seçiyor.

OpenVoice, diğer ses klonlama araçlarının sunmadığı bir özellik olan duygu, vurgu, ritim, duraklamalar ve tonlama dahil olmak üzere ses stilleri üzerinde ayrıntılı kontrol sağlar.

Video: YouTube

Teknoloji, bir sesin bileşenlerini mümkün olduğunca ayrıştırarak çalışır; bu, ton, stil ve dilin ayrı öğeler olarak ele alındığı anlamına gelir.

Bu, temel sesin, stilin ve dilin bağımsız olarak yönetilmesine olanak tanıyarak etkileyici düzeyde bir kişiselleştirme sunar.

OpenVoice'u ElevenLabs gibi öncüllerinden gerçekten ayıran şey, sıfır atışlı diller arası ses klonlama yeteneğidir. Bu, OpenVoice'un eğitim setinde yer almayan dillerdeki sesleri taklit edebileceği anlamına gelir.

Dolayısıyla, sesli kitabınızın İngilizce konuşan bir kişinin sesiyle Fransızca okunmasını istiyorsanız, OpenVoice aradığınızı bulur.

Video: YouTube

MyShell'in OpenVoice'iyle ses nasıl kopyalanır?

Teknoloji karmaşık olmasına rağmen OpenVoice'u kullanmak şaşırtıcı derecede basittir.

Tek gereken, istediğiniz konuşmacının kısa bir ses klibidir ve saniyeler içinde, o kişinin sesinde, birden çok dilde, çeşitli duygu ve tarzlarla konuşma oluşturabilirsiniz.

GitHub sayfasında sağlanan talimatlara göre MyShell'in OpenVoice'inin nasıl kullanılacağına dair adım adım bir kılavuz:

Karbon 1

Teknoloji karmaşık olmasına rağmen OpenVoice'u kullanmak şaşırtıcı derecede basittir.

Tek gereken, istediğiniz konuşmacının kısa bir ses klibidir ve saniyeler içinde, o kişinin sesinde, birden çok dilde, çeşitli duygu ve tarzlarla konuşma oluşturabilirsiniz.

  1. OpenVoice deposunu klonlayın
    openview myshell nasıl kurulur? Ai

    Bunu OpenVoice GitHub deposuna gidip yeşil 'Kod' düğmesine tıklayarak yapabilirsiniz. Daha sonra depo dosyalarını yerel sisteminize indirmek için 'ZIP'i İndir'e tıklayın.

  2. Zip'i İndir
    Openview ses klonlama aracı nasıl kurulur

    Daha sonra depo dosyalarını yerel sisteminize indirmek için 'ZIP'i İndir'e tıklayın.

  3. Python ortamı oluşturma ve etkinleştirme
    Karbon 1

    Yeni bir Python ortamı oluşturun ve etkinleştirin. Anaconda kullanıyorsanız bunu terminalinizde aşağıdaki komutlarla yapabilirsiniz:

    conda create -n openvoice python=3.9
    conda openvoice'u etkinleştir

  4. Gerekli paketleri yükleyin
    Openview python enviorment

    Gerekli paketleri kurmak için terminalinizde aşağıdaki komutları kullanarak bunu yapabilirsiniz:

    conda pytorch'u yükleyin==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
    cuda=11.7 -c pytorch -c nvidia
    pip kurulumu -r gereksinimleri.txt

    Kontrol noktasını buradan indirin ve checkpoints klasörüne çıkarın.

OpenVoice nasıl kullanılır?

Not: Burada işler biraz teknikleşiyor. Herhangi bir kodlama deneyiminiz yoksa veya Python ortamlarına aşina değilseniz, bu muhtemelen başınızı aşacaktır. Ama eğer biraz cezadan hoşlanıyorsanız, o zaman ilerleyelim.

  • Esnek Ses Stili Kontrolü : demo_part1.ipynb OpenVoice'ın klonlanmış ses üzerinde esnek stil kontrolünü nasıl sağladığının bir örneğini görebilirsiniz.
  • Diller Arası Ses Klonlama : demo_part2.ipynb dosyasındaki MSML eğitim setinde görülen ve görülmeyen dillere ilişkin bir örnek görebilirsiniz.
  • Gradio Demo : Terminalinizde aşağıdaki komutla yerel bir Gradio demosu başlatabilirsiniz:
 python -m openvoice_app --share

Gelişmiş Kullanım : Baz hoparlör modeli, tercih ettiğiniz herhangi bir model (herhangi bir dil ve tarzda) ile değiştirilebilir.

Openview coding example on a purple background
Resim: KnowTechie

Yeni ana hoparlör için ton rengi yerleştirmeyi çıkarmak amacıyla demoda gösterildiği gibi se_extractor.get_se işlevini kullanabilirsiniz.

2.5 Doğal Konuşma Oluşturmaya Yönelik İpuçları : Doğal konuşmayı oluşturabilen ve kolayca bulunabilen birçok tek veya çok hoparlörlü TTS yöntemi vardır.

Sadece baz hoparlör modelini tercih ettiğiniz modelle değiştirerek konuşma doğallığını istediğiniz seviyeye getirebilirsiniz.

Lütfen bu havuzun ticari kullanımı yasaklayan Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı kapsamında lisanslandığını unutmayın.

OpenVoice'un maliyeti ne kadar?

Hizmetin kullanımı şu anda ücretsiz ve MyShell.ai ekibi kaynak kodunu ve eğitimli modeli GitHub'da kullanıma sunarak geliştiricilerin teknolojiyi denemesine ve genişletmesine olanak tanıdı.

OpenVoice'un potansiyeli nedir?

OpenVoice sadece eğlenceli bir hile değil.

Filmleri dublajlamak veya kişiselleştirilmiş sohbet robotları oluşturmak için kullanılabileceği eğlence ve medyadan, kendi sesini kaybedenlerin sesini duyurabileceği erişilebilirliğe kadar endüstrilerde devrim yaratma potansiyeline sahip.

Deepfake ses veya kimlik hırsızlığı gibi kötüye kullanım potansiyeli endişe verici olsa da MyShell.ai ekibi, etik yönergeleri takip etmeye ve bu tür kötüye kullanımı önlemek için güvenlik önlemlerini araştırmaya kararlıdır.

Openvoice ses klonlama teknolojisi örneği
Resim: KnowTechie

Hız ve doğruluk açısından OpenVoice rakiplerini gölgede bırakıyor. Araç, hesaplama açısından verimli ve ekip, aracın bir saniyelik konuşmayı yalnızca 85 milisaniyede üretebildiğini iddia ediyor.

OpenVoice, ses teknolojisinin geleceğine heyecan verici bir bakış.

Herhangi bir sesi anında klonlama yeteneği sayesinde olasılıklar sonsuz gibi görünüyor. Öyleyse neden deneyip kim olabileceğinizi görmüyorsunuz?

Bu güç merkezinin arkasındaki beyinler arasında MIT ve MyShell salonlarından Zengyi Qin, Tsinghua Üniversitesi'nden Wenliang Zhao ve Xumin Yu ve sonuncu ama bir o kadar da önemlisi MyShell'den Ethan Sun yer alıyor.

Bu konuda herhangi bir düşünceniz var mı? Yorumlarda bize bir satır bırakın veya tartışmayı Twitter veya Facebook'umuza taşıyın.

Editörlerin Önerileri:

  • ElevenLabs'ın sahibi kim?
  • ElevenLabs nedir?
  • Figma'nın FigJam'in yapay zekası üzerine yaptığı bahis, toplantıları daha katlanılabilir hale getirecek
  • Microsoft'un AI Copilot'u iOS'ta uçuşa geçiyor

Bilginiz olsun, bağlantılarımız aracılığıyla bir şey satın alırsanız satıştan küçük bir pay alabiliriz. Buradaki ışıkları açık tutmanın yollarından biri bu. Daha fazlası için burayı tıklayın.

Bizi Flipboard, Google Haberler veya Apple News'te takip edin