该网站可让您在 30 秒内克隆任何人的声音
已发表: 2024-01-04您是否曾希望让摩根·弗里曼迷人的声音讲述您的日常生活? 或者您可能想象过您的 GPS 用斯嘉丽约翰逊性感的语气说话?
得益于 MyShell.ai 推出的名为 OpenVoice 的创新工具,这一点以及更多功能现在都触手可及。
那么,它是什么? OpenVoice 是一种即时语音克隆工具,可以通过简短的音频样本模仿任何声音。
但真正的魔力在于,它不仅仅只是模仿某人的声音;它还包括模仿他人的声音。 它本质上是精挑细选的所有独特特征。
OpenVoice 允许对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调,这是其他语音克隆工具根本不提供的功能。
该技术的工作原理是尽可能地解耦声音的各个组成部分,这意味着语气、风格和语言被视为单独的元素。
这使得基本语音、风格和语言能够独立操作,提供令人印象深刻的定制水平。
OpenVoice 与 ElevenLabs 等前辈的真正区别在于其零样本跨语言语音克隆能力。 这意味着 OpenVoice 可以模仿其训练集中未包含的语言的声音。
因此,如果您曾经希望由英语使用者的声音以法语朗读您的有声读物,OpenVoice 可以满足您的需求。
如何使用 MyShell 的 OpenVoice 克隆声音
尽管技术很复杂,但使用 OpenVoice 却出奇的简单。
它所需要的只是所需讲话者发出的简短音频片段,几秒钟之内,您就可以用该人的声音、多种语言以及各种情感和风格生成语音。
以下是有关如何根据 GitHub 页面上提供的说明使用 MyShell 的 OpenVoice 的分步指南:
尽管技术很复杂,但使用 OpenVoice 却出奇的简单。
它所需要的只是所需讲话者发出的简短音频片段,几秒钟之内,您就可以用该人的声音、多种语言以及各种情感和风格生成语音。
克隆 OpenVoice 存储库
您可以通过导航到 OpenVoice GitHub 存储库并单击绿色的“代码”按钮来完成此操作。 然后单击“下载 ZIP”将存储库文件下载到本地系统。
下载邮编
然后单击“下载 ZIP”将存储库文件下载到本地系统。
创建并激活Python环境
创建一个新的Python环境并激活它。 如果您使用的是 Anaconda,则可以在终端中使用以下命令来执行此操作:
conda 创建-n openvoice python=3.9
conda 激活 openvoice安装所需的包
要安装所需的软件包,您可以在终端中使用以下命令来执行此操作:
conda 安装 pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c nvidia
pip install -r 要求.txt从此处下载检查点并将其解压到
checkpoints
文件夹中。
如何使用开放语音
注意:这里有点技术性。 如果您没有任何编码经验或者不熟悉 Python 环境,这可能会超出您的理解范围。 但如果你喜欢一点惩罚,那就让我们继续吧。
- 灵活的语音风格控制:您可以在
demo_part1.ipynb
中查看 OpenVoice 如何对克隆语音进行灵活风格控制的示例。 - 跨语言语音克隆:您可以在
demo_part2.ipynb
中查看 MSML 训练集中看到或未看到的语言的示例。 - Gradio 演示:您可以在终端中使用以下命令启动本地 Gradio 演示:
python -m openvoice_app --share
高级用法:基本扬声器模型可以替换为您喜欢的任何模型(任何语言和风格)。
您可以使用演示中演示的se_extractor.get_se
函数来提取新基础扬声器的音色嵌入。
2.5生成自然语音的技巧: 有许多单人或多说话者 TTS 方法可以生成自然语音,这些方法很容易获得。
只需将基本扬声器模型替换为您喜欢的模型,您就可以将语音自然度提升到您想要的水平。
OpenVoice 的费用是多少?
该服务目前免费使用,MyShell.ai 团队已在 GitHub 上提供源代码和训练模型,允许开发人员试验和扩展该技术。
OpenVoice 的潜力是什么?
OpenVoice 不仅仅是一个有趣的噱头。
它有可能彻底改变各个行业,从娱乐和媒体(它可以用来配音电影或创建个性化聊天机器人)到可访问性(它可以为那些失去自己的人发出声音)。
虽然深度伪造音频或身份盗窃等潜在滥用问题令人担忧,但 MyShell.ai 团队致力于遵循道德准则并探索防止此类滥用的保障措施。
在速度和准确性方面,OpenVoice 超越了竞争对手。 该工具计算效率很高,团队声称它可以在短短 85 毫秒内生成一秒语音。
OpenVoice 是对语音技术未来的令人兴奋的一瞥。
凭借其立即克隆任何声音的能力,可能性似乎无穷无尽。 那么为什么不尝试一下,看看你能成为谁呢?
这个巨头背后的大脑包括来自麻省理工学院和 MyShell 的秦增一、来自清华大学的赵文亮和余旭民,以及来自 MyShell 的 Ethan Sun。
对此有什么想法吗? 请在下面的评论中给我们留言,或者将讨论转移到我们的 Twitter 或 Facebook。
编辑推荐:
- 谁拥有 ElevenLabs?
- 什么是十一实验室?
- Figma 押注于 FigJam 的人工智能将使会议变得更轻松
- 微软的 AI Copilot 在 iOS 上起飞
请注意,如果您通过我们的链接购买商品,我们可能会获得一小部分销售份额。 这是我们保持这里灯火通明的方式之一。 单击此处了解更多信息。