この Web サイトでは、30 秒以内に誰でも音声のクローンを作成できます
公開: 2024-01-04モーガン・フリーマンの魅惑的な声であなたの日常生活を語ってもらいたいと思ったことはありませんか? あるいは、GPS がスカーレット・ヨハンソンのような蒸し暑い口調で話しているところを想像したことがあるでしょうか?
OpenVoice と呼ばれる MyShell.ai の革新的な新しいツールのおかげで、これだけでなく、さらに多くのことが実現できるようになりました。
それで、それは何ですか? OpenVoice は、短い音声サンプルからあらゆる音声を模倣できるインスタント音声クローン ツールです。
しかし、本当の魔法は、誰かの声を真似するだけにとどまらないことです。 基本的に、そのユニークな特性をすべて厳選しています。
OpenVoice を使用すると、感情、アクセント、リズム、ポーズ、イントネーションなどの音声スタイルをきめ細かく制御できます。これは、他の音声複製ツールでは提供できない機能です。
このテクノロジーは、音声のコンポーネントを可能な限り分離することによって機能します。つまり、トーン、スタイル、言語が個別の要素として扱われます。
これにより、基本音声、スタイル、言語を個別に操作できるようになり、優れたレベルのカスタマイズが可能になります。
OpenVoice が 11Labs などの前任者と大きく異なるのは、ゼロショットで言語を超えた音声クローンを作成できることです。 これは、OpenVoice がトレーニング セットに含まれていない言語の音声を模倣できることを意味します。
したがって、オーディオブックを英語話者の声でフランス語で読み上げたいと思ったことがある場合は、OpenVoice が対応します。
MyShell の OpenVoice を使用して音声を複製する方法
テクノロジーは複雑ですが、OpenVoice の使用は驚くほど簡単です。
必要なのは、希望の話者からの短いオーディオ クリップだけで、数秒以内に、その人の声で、複数の言語で、さまざまな感情やスタイルのスピーチを生成できます。
MyShell の OpenVoice の使用方法については、GitHub ページで提供されている手順に基づいたステップバイステップ ガイドを次に示します。
テクノロジーは複雑ですが、OpenVoice の使用は驚くほど簡単です。
必要なのは、希望の話者からの短いオーディオ クリップだけで、数秒以内に、その人の声で、複数の言語で、さまざまな感情やスタイルのスピーチを生成できます。
OpenVoice リポジトリのクローンを作成する
これを行うには、OpenVoice GitHub リポジトリに移動し、緑色の「コード」ボタンをクリックします。 次に、「ZIP をダウンロード」をクリックして、リポジトリ ファイルをローカル システムにダウンロードします。
ZIP をダウンロード
次に、「ZIP をダウンロード」をクリックして、リポジトリ ファイルをローカル システムにダウンロードします。
Python 環境を作成してアクティブ化する
新しい Python 環境を作成し、アクティブ化します。 Anaconda を使用している場合は、ターミナルで次のコマンドを使用してこれを行うことができます。
conda create -n openvoice python=3.9
condaはopenvoiceをアクティブ化します必要なパッケージをインストールする
必要なパッケージをインストールするには、ターミナルで次のコマンドを使用します。
conda インストール pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c nvidia
pip install -r 要件.txtここからチェックポイントをダウンロードし、
checkpoints
フォルダーに抽出します。
オープンボイスの使い方
注:ここでは少し技術的な話になります。 コーディングの経験がない場合、または Python 環境に慣れていない場合は、おそらくこれは頭の痛いことでしょう。 しかし、少しの罰を楽しむのであれば、先に進みましょう。
- 柔軟な音声スタイル制御: OpenVoice がクローン音声に対する柔軟なスタイル制御をどのように有効にするかの例を、
demo_part1.ipynb
で見ることができます。 - クロスリンガル音声クローン作成:
demo_part2.ipynb
の MSML トレーニング セットで、見られる言語または見られない言語の例を確認できます。 - Gradio デモ: ターミナルで次のコマンドを使用して、ローカルの Gradio デモを起動できます。
python -m openvoice_app --share
高度な使用法: ベース スピーカー モデルは、お好みの任意のモデル (任意の言語およびスタイル) に置き換えることができます。
デモで示したようにse_extractor.get_se
関数を使用して、新しいベース スピーカーの音色埋め込みを抽出できます。
2.5自然な音声を生成するためのヒント: 自然な音声を生成できる単一または複数話者の TTS 方法が多数あり、すぐに利用できます。
ベーススピーカーモデルをお好みのモデルに交換するだけで、音声の自然さを希望のレベルまで高めることができます。
OpenVoiceの料金はいくらですか?
このサービスは現在無料で使用でき、MyShell.ai のチームはソース コードとトレーニング済みモデルを GitHub で利用できるようにし、開発者がテクノロジーを実験および拡張できるようにしました。
OpenVoice の可能性は何ですか?
OpenVoice は単なる楽しいギミックではありません。
これは、映画の吹き替えやパーソナライズされたチャットボットの作成に使用できるエンターテインメントやメディアから、自分の声を失った人々に声を与えることができるアクセシビリティに至るまで、業界に革命を起こす可能性を秘めています。
ディープフェイク音声や個人情報の盗難などの悪用の可能性が懸念されていますが、MyShell.ai のチームは倫理ガイドラインに従い、そのような悪用を防ぐための安全策を模索することに取り組んでいます。
速度と正確さの点で、OpenVoice は競合他社を上回っています。 このツールは計算効率が高く、チームはわずか 85 ミリ秒で 2 秒間の音声を生成できると主張しています。
OpenVoice は、音声テクノロジーの未来を垣間見る刺激的なものです。
あらゆる音声を瞬時に複製できる機能により、可能性は無限のように思えます。 ぜひ試してみて、自分が何者になれるか試してみてはいかがでしょうか?
この強力な組織の背後にある頭脳には、MIT と MyShell のホール出身の Zengyi Qin 氏、Wenliang Zhao 氏、Xumin Yu 氏(どちらも清華大学出身)、そして最後に重要なことですが、MyShell の Ethan Sun 氏が含まれます。
これについて何か考えはありますか? 以下のコメント欄に記入していただくか、Twitter または Facebook でディスカッションを行ってください。
編集者のおすすめ:
- イレブンラボの所有者は誰ですか?
- イレブンラボとは何ですか?
- Figma は FigJam の AI に賭けて会議をより耐えられるものにする
- Microsoft の AI Copilot が iOS 上で飛行
注意してください、あなたが私たちのリンクを通じて何かを購入した場合、私たちは売上のわずかな分け前を受け取る可能性があります。 これは、ここに明かりを灯し続けるための方法の 1 つです。 詳細については、ここをクリックしてください。