該網站可讓您在 30 秒內克隆任何人的聲音

已發表: 2024-01-04

您是否曾經希望讓摩根費里曼迷人的聲音講述您的日常生活? 或者您可能想像過您的 GPS 用斯嘉麗約翰遜性感的語氣說話?

由於 MyShell.ai 推出的名為 OpenVoice 的創新工具,這一點以及更多功能現在都觸手可及。

那麼,它是什麼? OpenVoice 是一種即時語音複製工具,可以透過簡短的音訊樣本模仿任何聲音。

但真正的魔力在於,它不僅僅只是模仿某人的聲音;它還包括模仿他人的聲音。 它本質上是精挑細選的所有獨特特徵。

OpenVoice 允許對語音風格進行精細控制,包括情緒、口音、節奏、停頓和語調,這是其他語音克隆工具根本不提供的功能。

影片:YouTube

這項技術的工作原理是盡可能解耦聲音的各個組成部分,這意味著語氣、風格和語言被視為單獨的元素。

這使得基本語音、風格和語言能夠獨立操作,提供令人印象深刻的客製化程度。

OpenVoice 與 ElevenLabs 等前輩的真正區別在於其零樣本跨語言語音克隆能力。 這意味著 OpenVoice 可以模仿其訓練集中未包含的語言的聲音。

因此,如果您曾經希望由英語使用者的聲音以法語朗讀您的有聲讀物,OpenVoice 可以滿足您的需求。

影片:YouTube

如何使用 MyShell 的 OpenVoice 克隆聲音

儘管技術很複雜,但使用 OpenVoice 卻出奇的簡單。

它所需要的只是所需演講者發出的簡短音訊片段,幾秒鐘之內,您就可以用該人的聲音、多種語言以及各種情感和風格產生語音。

以下是如何根據 GitHub 頁面上提供的說明使用 MyShell 的 OpenVoice 的逐步指南:

碳1

儘管技術很複雜,但使用 OpenVoice 卻出奇的簡單。

它所需要的只是所需演講者發出的簡短音訊片段,幾秒鐘之內,您就可以用該人的聲音、多種語言以及各種情感和風格產生語音。

  1. 克隆 OpenVoice 儲存庫
    如何安裝 openview myshell。人工智慧

    您可以透過導覽至 OpenVoice GitHub 儲存庫並點擊綠色的「程式碼」按鈕來完成此操作。 然後按一下「下載 ZIP」將儲存庫檔案下載到本機系統。

  2. 下載郵編
    如何安裝openview語音克隆工具

    然後按一下「下載 ZIP」將儲存庫檔案下載到本機系統。

  3. 創建並啟動Python環境
    碳1

    創建一個新的Python環境並啟動它。 如果您使用的是 Anaconda,則可以在終端機中使用以下命令來執行此操作:

    conda 創建-n openvoice python=3.9
    conda 激活 openvoice

  4. 安裝所需的套件
    Openview python enviorment

    若要安裝所需的軟體包,您可以在終端機中使用以下命令來執行此操作:

    conda 安裝 pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
    cuda=11.7 -c pytorch -c nvidia
    pip install -r 要求.txt

    從此處下載檢查點並將其解壓縮到checkpoints資料夾中。

如何使用開放語音

注意:這裡有點技術性。 如果您沒有任何編碼經驗或不熟悉 Python 環境,這可能會超出您的理解範圍。 但如果你喜歡一點懲罰,那就讓我們繼續吧。

  • 靈活的語音風格控制:您可以在demo_part1.ipynb中查看 OpenVoice 如何對克隆語音進行靈活風格控制的範例。
  • 跨語言語音克隆:您可以在demo_part2.ipynb中查看 MSML 訓練集中看到或未看到的語言的範例。
  • Gradio 示範:您可以在終端機中使用下列指令啟動本機 Gradio 示範:
 python -m openvoice_app --share

進階用法:基本揚聲器模型可以替換為您喜歡的任何模型(任何語言和風格)。

Openview coding example on a purple background
圖:KnowTechie

您可以使用示範中示範的se_extractor.get_se函數來擷取新基礎揚聲器的音色嵌入。

2.5產生自然語音的技巧: 有許多單人或多說話者 TTS 方法可以產生自然語音,這些方法很容易取得。

只需將基本揚聲器模型替換為您喜歡的模型,您就可以將語音自然度提升到您想要的水平。

請注意,該儲存庫根據知識共享署名-非商業 4.0 國際許可證獲得許可,禁止商業用途。

OpenVoice 的費用是多少?

該服務目前免費使用,MyShell.ai 團隊已在 GitHub 上提供原始碼和訓練模型,讓開發人員可以試驗和擴展該技術。

OpenVoice 的潛力是什麼?

OpenVoice 不只是一個有趣的噱頭。

它有可能徹底改變各個行業,從娛樂和媒體(它可以用來配音電影或創建個人化聊天機器人)到可訪問性(它可以為那些失去自己的人發出聲音)。

雖然深度偽造音訊或身分盜竊等潛在濫用問題令人擔憂,但 MyShell.ai 團隊致力於遵循道德準則並探索防止此類濫用的保障措施。

Openvoice 語音克隆技術範例
圖:KnowTechie

在速度和準確性方面,OpenVoice 超越了競爭對手。 該工具計算效率很高,團隊聲稱它可以在短短 85 毫秒內產生一秒語音。

OpenVoice 是對語音技術未來的令人興奮的一瞥。

憑藉其立即複製任何聲音的能力,可能性似乎無窮無盡。 那為什麼不嘗試一下,看看你能成為誰呢?

這個巨頭背後的大腦包括來自麻省理工學院和 MyShell 的秦增一、來自清華大學的趙文亮和余旭民,以及來自 MyShell 的 Ethan Sun。

對此有什麼想法嗎? 請在下面的評論中給我們留言,或將討論轉移到我們的 Twitter 或 Facebook。

編輯推薦:

  • 誰擁有 ElevenLabs?
  • 什麼是十一實驗室?
  • Figma 押注於 FigJam 的人工智慧將使會議變得更輕鬆
  • 微軟的 AI Copilot 在 iOS 上起飛

請注意,如果您透過我們的連結購買商品,我們可能會獲得一小部分銷售份額。 這是我們保持這裡燈火通明的方式之一。 按此處了解更多。

在 Flipboard、Google 新聞或 Apple 新聞上關注我們