Acest site web vă permite să clonați vocea oricui în mai puțin de 30 de secunde

Publicat: 2024-01-04

Ți-ai dorit vreodată ca vocea captivantă a lui Morgan Freeman să-ți povestească viața de zi cu zi? Sau poate ți-ai imaginat GPS-ul tău vorbind în tonurile aprinse ale lui Scarlett Johansson?

Datorită unui nou instrument inovator de la MyShell.ai, numit OpenVoice, acesta și multe altele sunt acum la îndemână.

Deci ce este? OpenVoice este un instrument de clonare instantanee a vocii care poate imita orice voce dintr-o scurtă mostră audio.

Dar adevărata magie este că nu se oprește la imitarea vocii cuiva; în esență, culege toate caracteristicile sale unice.

OpenVoice permite control granular asupra stilurilor de voce, inclusiv emoție, accent, ritm, pauze și intonație, o caracteristică pe care alte instrumente de clonare a vocii pur și simplu nu o oferă.

Video: YouTube

Tehnologia funcționează prin decuplarea componentelor unei voci cât mai mult posibil, ceea ce înseamnă că tonul, stilul și limbajul sunt tratate ca elemente individuale.

Acest lucru permite ca vocea de bază, stilul și limbajul să fie manipulate independent, oferind un nivel impresionant de personalizare.

Ceea ce diferențiază cu adevărat OpenVoice de predecesorii săi, cum ar fi ElevenLabs, este capacitatea sa de clonare a vocii interlingvistice zero-shot. Aceasta înseamnă că OpenVoice poate imita voci în limbi care nu sunt incluse în setul său de instruire.

Așadar, dacă ți-ai dorit vreodată să-ți citească audiobook-ul în franceză de vocea unui vorbitor de engleză, OpenVoice te găsește.

Video: YouTube

Cum se clonează o voce cu OpenVoice de la MyShell

Deși tehnologia este complexă, utilizarea OpenVoice este surprinzător de simplă.

Tot ce necesită este un scurt clip audio de la difuzorul dorit și, în câteva secunde, puteți genera vorbire în vocea acelei persoane, în mai multe limbi și cu o gamă largă de emoții și stiluri.

Iată un ghid pas cu pas despre cum să utilizați OpenVoice MyShell pe baza instrucțiunilor furnizate pe pagina GitHub:

Carbon 1

Deși tehnologia este complexă, utilizarea OpenVoice este surprinzător de simplă.

Tot ce necesită este un scurt clip audio de la difuzorul dorit și, în câteva secunde, puteți genera vorbire în vocea acelei persoane, în mai multe limbi și cu o gamă largă de emoții și stiluri.

  1. Clonează depozitul OpenVoice
    Cum se instalează openview myshell. Ai

    Puteți face acest lucru navigând la depozitul OpenVoice GitHub și făcând clic pe butonul verde „Cod”. Apoi faceți clic pe „Descărcați ZIP” pentru a descărca fișierele de depozit în sistemul dvs. local.

  2. Descărcați Zip
    Cum se instalează instrumentul de clonare a vocii openview

    Apoi faceți clic pe „Descărcați ZIP” pentru a descărca fișierele de depozit în sistemul dvs. local.

  3. Creați și activați un mediu Python
    Carbon 1

    Creați un nou mediu Python și activați-l. Dacă utilizați Anaconda, puteți face acest lucru cu următoarele comenzi în terminalul dvs.:

    conda create -n openvoice python=3.9
    conda activa openvoice

  4. Instalați pachetele necesare
    Openview python enviorment

    Pentru a instala pachetele necesare, puteți face acest lucru cu următoarele comenzi în terminalul dvs.:

    conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
    cuda=11.7 -c pytorch -c nvidia
    pip install -r requirements.txt

    Descărcați punctul de control de aici și extrageți-l în folderul checkpoints .

Cum se utilizează OpenVoice

Notă: Lucrurile devin puțin tehnice aici. Dacă nu aveți experiență de codare sau nu sunteți familiarizat cu mediile Python, probabil că acest lucru vă va trece peste cap. Dar dacă vă bucurați de un pic de pedeapsă, atunci să mergem înainte.

  • Control flexibil al stilului vocal : Puteți vedea un exemplu despre modul în care OpenVoice permite controlul flexibil al stilului asupra vocii clonate în demo_part1.ipynb .
  • Clonarea vocii interlingve : puteți vedea un exemplu pentru limbile văzute sau nevăzute în setul de antrenament MSML în demo_part2.ipynb .
  • Demo Gradio : Puteți lansa un demo Gradio local cu următoarea comandă în terminalul dvs.:
 python -m openvoice_app --share

Utilizare avansată : modelul de difuzor de bază poate fi înlocuit cu orice model (în orice limbă și stil) pe care îl preferați.

Openview coding example on a purple background
Imagine: KnowTechie

Puteți utiliza funcția se_extractor.get_se , așa cum este demonstrat în demonstrație, pentru a extrage încorporarea culorii de ton pentru noul difuzor de bază.

2.5 Sfaturi pentru a genera vorbire naturală : Există multe metode TTS cu un singur vorbitor sau cu mai multe vorbitoare care pot genera vorbire naturală, care sunt ușor disponibile.

Pur și simplu înlocuind modelul de difuzor de bază cu modelul pe care îl preferați, puteți împinge naturalețea vorbirii la nivelul dorit.

Vă rugăm să rețineți că acest depozit este licențiat sub o licență internațională Creative Commons Attribution-NonComercial 4.0, care interzice utilizarea comercială.

Cât costă OpenVoice?

În prezent, serviciul este gratuit, iar echipa de la MyShell.ai a pus la dispoziție codul sursă și modelul instruit pe GitHub, permițând dezvoltatorilor să experimenteze și să extindă tehnologia.

Care este potențialul OpenVoice?

OpenVoice nu este doar un truc distractiv.

Are potențialul de a revoluționa industriile, de la divertisment și media, unde ar putea fi folosit pentru a dubla filme sau pentru a crea chatbot-uri personalizate, până la accesibilitate, unde ar putea da voce celor care și-au pierdut-o pe a lor.

Deși potențialul de utilizare abuzivă, cum ar fi sunetul fals sau furtul de identitate, este o preocupare, echipa MyShell.ai se angajează să urmeze liniile directoare etice și să exploreze măsurile de protecție pentru a preveni o astfel de utilizare greșită.

Exemplu de tehnologie de clonare a vocii Openvoice
Imagine: KnowTechie

În ceea ce privește viteza și acuratețea, OpenVoice își depășește concurenții. Instrumentul este eficient din punct de vedere computațional, iar echipa susține că poate genera o secundă de vorbire în doar 85 de milisecunde.

OpenVoice este o privire captivantă asupra viitorului tehnologiei vocale.

Cu capacitatea sa de a clona orice voce instantaneu, posibilitățile par nesfârșite. Deci, de ce să nu încerci și să vezi cine ai putea deveni?

Creierele din spatele acestei centrale includ Zengyi Qin de la sălile MIT și MyShell, Wenliang Zhao și Xumin Yu, ambii de la Universitatea Tsinghua și, nu în ultimul rând, Ethan Sun de la MyShell.

Ai vreo părere despre asta? Trimiteți-ne un rând mai jos în comentarii sau transmiteți discuția pe Twitter sau Facebook.

Recomandările editorilor:

  • Cine deține ElevenLabs?
  • Ce este ElevenLabs?
  • Pariul lui Figma pe IA lui FigJam va face întâlnirile mai suportabile
  • AI Copilot de la Microsoft își ia zborul pe iOS

Doar un avertisment, dacă cumpărați ceva prin link-urile noastre, este posibil să primim o mică parte din vânzare. Este una dintre modalitățile prin care ținem luminile aprinse aici. Click aici pentru mai multe.

Urmărește-ne pe Flipboard, Google News sau Apple News