該網站可讓您在 30 秒內克隆任何人的聲音

已發表: 2024-01-04

您是否曾經希望讓摩根費里曼迷人的聲音講述您的日常生活？或者您可能想像過您的 GPS 用斯嘉麗約翰遜性感的語氣說話？

由於 MyShell.ai 推出的名為 OpenVoice 的創新工具，這一點以及更多功能現在都觸手可及。

那麼，它是什麼？ OpenVoice 是一種即時語音複製工具，可以透過簡短的音訊樣本模仿任何聲音。

但真正的魔力在於，它不僅僅只是模仿某人的聲音；它還包括模仿他人的聲音。它本質上是精挑細選的所有獨特特徵。

OpenVoice 允許對語音風格進行精細控制，包括情緒、口音、節奏、停頓和語調，這是其他語音克隆工具根本不提供的功能。

影片：YouTube

這項技術的工作原理是盡可能解耦聲音的各個組成部分，這意味著語氣、風格和語言被視為單獨的元素。

這使得基本語音、風格和語言能夠獨立操作，提供令人印象深刻的客製化程度。

OpenVoice 與 ElevenLabs 等前輩的真正區別在於其零樣本跨語言語音克隆能力。這意味著 OpenVoice 可以模仿其訓練集中未包含的語言的聲音。

因此，如果您曾經希望由英語使用者的聲音以法語朗讀您的有聲讀物，OpenVoice 可以滿足您的需求。

影片：YouTube

如何使用 MyShell 的 OpenVoice 克隆聲音

儘管技術很複雜，但使用 OpenVoice 卻出奇的簡單。

它所需要的只是所需演講者發出的簡短音訊片段，幾秒鐘之內，您就可以用該人的聲音、多種語言以及各種情感和風格產生語音。

以下是如何根據 GitHub 頁面上提供的說明使用 MyShell 的 OpenVoice 的逐步指南：

儘管技術很複雜，但使用 OpenVoice 卻出奇的簡單。

它所需要的只是所需演講者發出的簡短音訊片段，幾秒鐘之內，您就可以用該人的聲音、多種語言以及各種情感和風格產生語音。

克隆 OpenVoice 儲存庫
您可以透過導覽至 OpenVoice GitHub 儲存庫並點擊綠色的「程式碼」按鈕來完成此操作。然後按一下「下載 ZIP」將儲存庫檔案下載到本機系統。
下載郵編
然後按一下「下載 ZIP」將儲存庫檔案下載到本機系統。
創建並啟動Python環境
創建一個新的Python環境並啟動它。如果您使用的是 Anaconda，則可以在終端機中使用以下命令來執行此操作：
conda 創建-n openvoice python=3.9
conda 激活 openvoice
安裝所需的套件
若要安裝所需的軟體包，您可以在終端機中使用以下命令來執行此操作：
conda 安裝 pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c nvidia
pip install -r 要求.txt
從此處下載檢查點並將其解壓縮到checkpoints資料夾中。

如何使用開放語音

注意：這裡有點技術性。如果您沒有任何編碼經驗或不熟悉 Python 環境，這可能會超出您的理解範圍。但如果你喜歡一點懲罰，那就讓我們繼續吧。

靈活的語音風格控制：您可以在demo_part1.ipynb中查看 OpenVoice 如何對克隆語音進行靈活風格控制的範例。
跨語言語音克隆：您可以在demo_part2.ipynb中查看 MSML 訓練集中看到或未看到的語言的範例。
Gradio 示範：您可以在終端機中使用下列指令啟動本機 Gradio 示範：

 python -m openvoice_app --share

進階用法：基本揚聲器模型可以替換為您喜歡的任何模型（任何語言和風格）。

Openview coding example on a purple background — 圖：KnowTechie

您可以使用示範中示範的se_extractor.get_se函數來擷取新基礎揚聲器的音色嵌入。

2.5產生自然語音的技巧：有許多單人或多說話者 TTS 方法可以產生自然語音，這些方法很容易取得。

只需將基本揚聲器模型替換為您喜歡的模型，您就可以將語音自然度提升到您想要的水平。

請注意，該儲存庫根據知識共享署名-非商業 4.0 國際許可證獲得許可，禁止商業用途。

OpenVoice 的費用是多少？

該服務目前免費使用，MyShell.ai 團隊已在 GitHub 上提供原始碼和訓練模型，讓開發人員可以試驗和擴展該技術。

OpenVoice 的潛力是什麼？

OpenVoice 不只是一個有趣的噱頭。

它有可能徹底改變各個行業，從娛樂和媒體（它可以用來配音電影或創建個人化聊天機器人）到可訪問性（它可以為那些失去自己的人發出聲音）。

雖然深度偽造音訊或身分盜竊等潛在濫用問題令人擔憂，但 MyShell.ai 團隊致力於遵循道德準則並探索防止此類濫用的保障措施。

在速度和準確性方面，OpenVoice 超越了競爭對手。該工具計算效率很高，團隊聲稱它可以在短短 85 毫秒內產生一秒語音。

OpenVoice 是對語音技術未來的令人興奮的一瞥。

憑藉其立即複製任何聲音的能力，可能性似乎無窮無盡。那為什麼不嘗試一下，看看你能成為誰呢？

這個巨頭背後的大腦包括來自麻省理工學院和 MyShell 的秦增一、來自清華大學的趙文亮和余旭民，以及來自 MyShell 的 Ethan Sun。

對此有什麼想法嗎？ 請在下面的評論中給我們留言，或將討論轉移到我們的 Twitter 或 Facebook。

編輯推薦：

誰擁有 ElevenLabs？
什麼是十一實驗室？
Figma 押注於 FigJam 的人工智慧將使會議變得更輕鬆
微軟的 AI Copilot 在 iOS 上起飛

請注意，如果您透過我們的連結購買商品，我們可能會獲得一小部分銷售份額。 這是我們保持這裡燈火通明的方式之一。 按此處了解更多。

該網站可讓您在 30 秒內克隆任何人的聲音

如何使用 MyShell 的 OpenVoice 克隆聲音

克隆 OpenVoice 儲存庫

下載郵編

創建並啟動Python環境

安裝所需的套件

如何使用開放語音

OpenVoice 的費用是多少？

OpenVoice 的潛力是什麼？

在 Flipboard、Google 新聞或 Apple 新聞上關注我們