이 웹사이트를 이용하면 30초 안에 누구의 목소리도 복제할 수 있습니다
게시 됨: 2024-01-04모건 프리먼(Morgan Freeman)의 매혹적인 목소리로 일상 생활을 이야기하고 싶었던 적이 있나요? 아니면 GPS가 스칼렛 요한슨의 음탕한 음색으로 말하는 것을 상상해 보셨나요?
OpenVoice라고 불리는 MyShell.ai의 혁신적인 새 도구 덕분에 이제 이 도구와 훨씬 더 많은 기능을 사용할 수 있습니다.
그래서, 그것은 무엇입니까? OpenVoice는 짧은 오디오 샘플에서 어떤 음성이라도 흉내낼 수 있는 즉각적인 음성 복제 도구입니다.
하지만 진짜 마법은 누군가의 목소리를 흉내내는 것에서 끝나지 않는다는 것입니다. 본질적으로 모든 고유한 특성을 선별합니다.
OpenVoice를 사용하면 다른 음성 복제 도구에서는 제공하지 않는 기능인 감정, 악센트, 리듬, 일시 정지, 억양 등 음성 스타일을 세부적으로 제어할 수 있습니다.
이 기술은 음성의 구성 요소를 최대한 분리하여 작동합니다. 즉, 톤, 스타일 및 언어가 개별 요소로 처리됩니다.
이를 통해 기본 음성, 스타일 및 언어를 독립적으로 조작할 수 있어 인상적인 수준의 사용자 정의가 가능합니다.
OpenVoice가 ElevenLabs와 같은 이전 제품과 차별화되는 점은 제로샷 교차 언어 음성 복제 기능입니다. 이는 OpenVoice가 훈련 세트에 포함되지 않은 언어의 음성을 모방할 수 있음을 의미합니다.
따라서 영어 사용자의 목소리로 프랑스어로 오디오북을 읽어주고 싶다면 OpenVoice가 도와드립니다.
MyShell의 OpenVoice로 음성을 복제하는 방법
기술은 복잡하지만 OpenVoice를 사용하는 것은 놀라울 정도로 간단합니다.
필요한 것은 원하는 화자의 짧은 오디오 클립뿐입니다. 몇 초 안에 그 사람의 목소리로 여러 언어로 다양한 감정과 스타일로 음성을 생성할 수 있습니다.
다음은 GitHub 페이지에 제공된 지침을 기반으로 MyShell의 OpenVoice를 사용하는 방법에 대한 단계별 가이드입니다.
기술은 복잡하지만 OpenVoice를 사용하는 것은 놀라울 정도로 간단합니다.
필요한 것은 원하는 화자의 짧은 오디오 클립뿐입니다. 몇 초 안에 그 사람의 목소리로 여러 언어로 다양한 감정과 스타일로 음성을 생성할 수 있습니다.
OpenVoice 저장소 복제
OpenVoice GitHub 저장소로 이동하여 녹색 '코드' 버튼을 클릭하면 됩니다. 그런 다음 'ZIP 다운로드'를 클릭하여 저장소 파일을 로컬 시스템에 다운로드하세요.
우편번호 다운로드
그런 다음 'ZIP 다운로드'를 클릭하여 저장소 파일을 로컬 시스템에 다운로드하세요.
Python 환경 생성 및 활성화
새로운 Python 환경을 생성하고 활성화합니다. Anaconda를 사용하는 경우 터미널에서 다음 명령을 사용하여 이 작업을 수행할 수 있습니다.
conda create -n openvoice python=3.9
conda는 openvoice를 활성화합니다필수 패키지 설치
필수 패키지를 설치하려면 터미널에서 다음 명령을 사용하면 됩니다.
conda 설치 pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c 엔비디아
pip 설치 -r 요구사항.txt여기에서 체크포인트를 다운로드하여
checkpoints
폴더에 추출합니다.
오픈보이스 사용 방법
참고: 여기서는 약간 기술적인 문제가 발생합니다. 코딩 경험이 없거나 Python 환경에 익숙하지 않다면 아마도 이 내용이 낯설게 느껴질 것입니다. 하지만 약간의 처벌을 즐긴다면 앞으로 나아가자.
- 유연한 음성 스타일 제어 : OpenVoice가
demo_part1.ipynb
에서 복제된 음성에 대해 유연한 스타일 제어를 활성화하는 방법에 대한 예를 볼 수 있습니다. - 교차 언어 음성 복제 :
demo_part2.ipynb
의 MSML 훈련 세트에 표시되거나 표시되지 않는 언어에 대한 예를 볼 수 있습니다. - Gradio Demo : 터미널에서 다음 명령을 사용하여 로컬 Gradio 데모를 시작할 수 있습니다.
python -m openvoice_app --share
고급 사용법 : 기본 스피커 모델은 귀하가 선호하는 모든 모델(언어 및 스타일)로 교체할 수 있습니다.
데모에서 설명한 대로 se_extractor.get_se
함수를 사용하여 새 기본 스피커에 대한 톤 색상 임베딩을 추출할 수 있습니다.
2.5 자연스러운 음성 생성을 위한 팁 : 자연스러운 음성을 생성할 수 있는 단일 또는 다중 화자 TTS 방법이 많이 있으며 쉽게 사용할 수 있습니다.
기본 스피커 모델을 원하는 모델로 간단히 교체하면 음성의 자연스러움을 원하는 수준으로 끌어올릴 수 있습니다.
OpenVoice의 비용은 얼마입니까?
이 서비스는 현재 무료로 사용할 수 있으며 MyShell.ai 팀은 GitHub에서 소스 코드와 훈련된 모델을 제공하여 개발자가 기술을 실험하고 확장할 수 있도록 했습니다.
OpenVoice의 잠재력은 무엇입니까?
OpenVoice는 단순한 재미있는 특수효과가 아닙니다.
영화를 더빙하거나 개인화된 챗봇을 만드는 데 사용할 수 있는 엔터테인먼트 및 미디어부터 자신의 목소리를 잃은 사람들에게 목소리를 줄 수 있는 접근성에 이르기까지 산업에 혁명을 일으킬 잠재력이 있습니다.
딥페이크 오디오 또는 신원 도용과 같은 오용 가능성이 우려되는 반면, MyShell.ai 팀은 윤리적 지침을 따르고 그러한 오용을 방지하기 위한 안전 장치를 모색하는 데 최선을 다하고 있습니다.
속도와 정확성 측면에서 OpenVoice는 경쟁사보다 뛰어납니다. 이 도구는 계산적으로 효율적이며 팀은 단 85밀리초 만에 1초의 음성을 생성할 수 있다고 주장합니다.
OpenVoice는 음성 기술의 미래를 엿볼 수 있는 흥미로운 기회입니다.
모든 음성을 즉시 복제할 수 있는 기능을 통해 가능성은 무한해 보입니다. 그렇다면 한번 시도해 보고 자신이 어떤 사람이 될 수 있는지 확인해 보는 것은 어떨까요?
이 강력한 팀 뒤에 있는 두뇌에는 MIT 및 MyShell 홀의 Zengyi Qin, Tsinghua University의 Wenliang Zhao 및 Xumin Yu와 마지막으로 MyShell의 Ethan Sun이 포함됩니다.
이것에 대해 어떤 생각이 있습니까? 아래 댓글에 한 줄을 남겨주시거나 Twitter나 Facebook으로 토론 내용을 전달해 주세요.
편집자 추천:
- ElevenLabs의 소유자는 누구입니까?
- 일레븐랩스는 무엇인가요?
- FigJam의 AI에 대한 Figma의 베팅은 회의를 더욱 견딜 수 있게 만들 것입니다.
- Microsoft의 AI Copilot이 iOS에서 비행합니다.
참고로, 저희 링크를 통해 무언가를 구매하시면 저희가 판매 금액의 일부를 받을 수도 있습니다. 이것이 우리가 이곳에 불을 켜두는 방법 중 하나입니다. 자세한 내용을 보려면 여기를 클릭하세요.