該網站可讓您在 30 秒內克隆任何人的聲音
已發表: 2024-01-04您是否曾經希望讓摩根費里曼迷人的聲音講述您的日常生活? 或者您可能想像過您的 GPS 用斯嘉麗約翰遜性感的語氣說話?
由於 MyShell.ai 推出的名為 OpenVoice 的創新工具,這一點以及更多功能現在都觸手可及。
那麼,它是什麼? OpenVoice 是一種即時語音複製工具,可以透過簡短的音訊樣本模仿任何聲音。
但真正的魔力在於,它不僅僅只是模仿某人的聲音;它還包括模仿他人的聲音。 它本質上是精挑細選的所有獨特特徵。
OpenVoice 允許對語音風格進行精細控制,包括情緒、口音、節奏、停頓和語調,這是其他語音克隆工具根本不提供的功能。
這項技術的工作原理是盡可能解耦聲音的各個組成部分,這意味著語氣、風格和語言被視為單獨的元素。
這使得基本語音、風格和語言能夠獨立操作,提供令人印象深刻的客製化程度。
OpenVoice 與 ElevenLabs 等前輩的真正區別在於其零樣本跨語言語音克隆能力。 這意味著 OpenVoice 可以模仿其訓練集中未包含的語言的聲音。
因此,如果您曾經希望由英語使用者的聲音以法語朗讀您的有聲讀物,OpenVoice 可以滿足您的需求。
如何使用 MyShell 的 OpenVoice 克隆聲音
儘管技術很複雜,但使用 OpenVoice 卻出奇的簡單。
它所需要的只是所需演講者發出的簡短音訊片段,幾秒鐘之內,您就可以用該人的聲音、多種語言以及各種情感和風格產生語音。
以下是如何根據 GitHub 頁面上提供的說明使用 MyShell 的 OpenVoice 的逐步指南:
儘管技術很複雜,但使用 OpenVoice 卻出奇的簡單。
它所需要的只是所需演講者發出的簡短音訊片段,幾秒鐘之內,您就可以用該人的聲音、多種語言以及各種情感和風格產生語音。
克隆 OpenVoice 儲存庫
您可以透過導覽至 OpenVoice GitHub 儲存庫並點擊綠色的「程式碼」按鈕來完成此操作。 然後按一下「下載 ZIP」將儲存庫檔案下載到本機系統。
下載郵編
然後按一下「下載 ZIP」將儲存庫檔案下載到本機系統。
創建並啟動Python環境
創建一個新的Python環境並啟動它。 如果您使用的是 Anaconda,則可以在終端機中使用以下命令來執行此操作:
conda 創建-n openvoice python=3.9
conda 激活 openvoice安裝所需的套件
若要安裝所需的軟體包,您可以在終端機中使用以下命令來執行此操作:
conda 安裝 pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c nvidia
pip install -r 要求.txt從此處下載檢查點並將其解壓縮到
checkpoints
資料夾中。
如何使用開放語音
注意:這裡有點技術性。 如果您沒有任何編碼經驗或不熟悉 Python 環境,這可能會超出您的理解範圍。 但如果你喜歡一點懲罰,那就讓我們繼續吧。
- 靈活的語音風格控制:您可以在
demo_part1.ipynb
中查看 OpenVoice 如何對克隆語音進行靈活風格控制的範例。 - 跨語言語音克隆:您可以在
demo_part2.ipynb
中查看 MSML 訓練集中看到或未看到的語言的範例。 - Gradio 示範:您可以在終端機中使用下列指令啟動本機 Gradio 示範:
python -m openvoice_app --share
進階用法:基本揚聲器模型可以替換為您喜歡的任何模型(任何語言和風格)。
您可以使用示範中示範的se_extractor.get_se
函數來擷取新基礎揚聲器的音色嵌入。
2.5產生自然語音的技巧: 有許多單人或多說話者 TTS 方法可以產生自然語音,這些方法很容易取得。
只需將基本揚聲器模型替換為您喜歡的模型,您就可以將語音自然度提升到您想要的水平。
OpenVoice 的費用是多少?
該服務目前免費使用,MyShell.ai 團隊已在 GitHub 上提供原始碼和訓練模型,讓開發人員可以試驗和擴展該技術。
OpenVoice 的潛力是什麼?
OpenVoice 不只是一個有趣的噱頭。
它有可能徹底改變各個行業,從娛樂和媒體(它可以用來配音電影或創建個人化聊天機器人)到可訪問性(它可以為那些失去自己的人發出聲音)。
雖然深度偽造音訊或身分盜竊等潛在濫用問題令人擔憂,但 MyShell.ai 團隊致力於遵循道德準則並探索防止此類濫用的保障措施。
在速度和準確性方面,OpenVoice 超越了競爭對手。 該工具計算效率很高,團隊聲稱它可以在短短 85 毫秒內產生一秒語音。
OpenVoice 是對語音技術未來的令人興奮的一瞥。
憑藉其立即複製任何聲音的能力,可能性似乎無窮無盡。 那為什麼不嘗試一下,看看你能成為誰呢?
這個巨頭背後的大腦包括來自麻省理工學院和 MyShell 的秦增一、來自清華大學的趙文亮和余旭民,以及來自 MyShell 的 Ethan Sun。
對此有什麼想法嗎? 請在下面的評論中給我們留言,或將討論轉移到我們的 Twitter 或 Facebook。
編輯推薦:
- 誰擁有 ElevenLabs?
- 什麼是十一實驗室?
- Figma 押注於 FigJam 的人工智慧將使會議變得更輕鬆
- 微軟的 AI Copilot 在 iOS 上起飛
請注意,如果您透過我們的連結購買商品,我們可能會獲得一小部分銷售份額。 這是我們保持這裡燈火通明的方式之一。 按此處了解更多。