该网站可让您在 30 秒内克隆任何人的声音

已发表: 2024-01-04

您是否曾希望让摩根·弗里曼迷人的声音讲述您的日常生活？或者您可能想象过您的 GPS 用斯嘉丽约翰逊性感的语气说话？

得益于 MyShell.ai 推出的名为 OpenVoice 的创新工具，这一点以及更多功能现在都触手可及。

那么，它是什么？ OpenVoice 是一种即时语音克隆工具，可以通过简短的音频样本模仿任何声音。

但真正的魔力在于，它不仅仅只是模仿某人的声音；它还包括模仿他人的声音。它本质上是精挑细选的所有独特特征。

OpenVoice 允许对语音风格进行精细控制，包括情感、口音、节奏、停顿和语调，这是其他语音克隆工具根本不提供的功能。

视频：YouTube

该技术的工作原理是尽可能地解耦声音的各个组成部分，这意味着语气、风格和语言被视为单独的元素。

这使得基本语音、风格和语言能够独立操作，提供令人印象深刻的定制水平。

OpenVoice 与 ElevenLabs 等前辈的真正区别在于其零样本跨语言语音克隆能力。这意味着 OpenVoice 可以模仿其训练集中未包含的语言的声音。

因此，如果您曾经希望由英语使用者的声音以法语朗读您的有声读物，OpenVoice 可以满足您的需求。

视频：YouTube

如何使用 MyShell 的 OpenVoice 克隆声音

尽管技术很复杂，但使用 OpenVoice 却出奇的简单。

它所需要的只是所需讲话者发出的简短音频片段，几秒钟之内，您就可以用该人的声音、多种语言以及各种情感和风格生成语音。

以下是有关如何根据 GitHub 页面上提供的说明使用 MyShell 的 OpenVoice 的分步指南：

尽管技术很复杂，但使用 OpenVoice 却出奇的简单。

它所需要的只是所需讲话者发出的简短音频片段，几秒钟之内，您就可以用该人的声音、多种语言以及各种情感和风格生成语音。

克隆 OpenVoice 存储库
您可以通过导航到 OpenVoice GitHub 存储库并单击绿色的“代码”按钮来完成此操作。然后单击“下载 ZIP”将存储库文件下载到本地系统。
下载邮编
然后单击“下载 ZIP”将存储库文件下载到本地系统。
创建并激活Python环境
创建一个新的Python环境并激活它。如果您使用的是 Anaconda，则可以在终端中使用以下命令来执行此操作：
conda 创建-n openvoice python=3.9
conda 激活 openvoice
安装所需的包
要安装所需的软件包，您可以在终端中使用以下命令来执行此操作：
conda 安装 pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c nvidia
pip install -r 要求.txt
从此处下载检查点并将其解压到checkpoints文件夹中。

如何使用开放语音

注意：这里有点技术性。如果您没有任何编码经验或者不熟悉 Python 环境，这可能会超出您的理解范围。但如果你喜欢一点惩罚，那就让我们继续吧。

灵活的语音风格控制：您可以在demo_part1.ipynb中查看 OpenVoice 如何对克隆语音进行灵活风格控制的示例。
跨语言语音克隆：您可以在demo_part2.ipynb中查看 MSML 训练集中看到或未看到的语言的示例。
Gradio 演示：您可以在终端中使用以下命令启动本地 Gradio 演示：

 python -m openvoice_app --share

高级用法：基本扬声器模型可以替换为您喜欢的任何模型（任何语言和风格）。

Openview coding example on a purple background — 图片：KnowTechie

您可以使用演示中演示的se_extractor.get_se函数来提取新基础扬声器的音色嵌入。

2.5生成自然语音的技巧：有许多单人或多说话者 TTS 方法可以生成自然语音，这些方法很容易获得。

只需将基本扬声器模型替换为您喜欢的模型，您就可以将语音自然度提升到您想要的水平。

请注意，该存储库根据知识共享署名-非商业 4.0 国际许可证获得许可，禁止商业用途。

OpenVoice 的费用是多少？

该服务目前免费使用，MyShell.ai 团队已在 GitHub 上提供源代码和训练模型，允许开发人员试验和扩展该技术。

OpenVoice 的潜力是什么？

OpenVoice 不仅仅是一个有趣的噱头。

它有可能彻底改变各个行业，从娱乐和媒体（它可以用来配音电影或创建个性化聊天机器人）到可访问性（它可以为那些失去自己的人发出声音）。

虽然深度伪造音频或身份盗窃等潜在滥用问题令人担忧，但 MyShell.ai 团队致力于遵循道德准则并探索防止此类滥用的保障措施。

在速度和准确性方面，OpenVoice 超越了竞争对手。该工具计算效率很高，团队声称它可以在短短 85 毫秒内生成一秒语音。

OpenVoice 是对语音技术未来的令人兴奋的一瞥。

凭借其立即克隆任何声音的能力，可能性似乎无穷无尽。那么为什么不尝试一下，看看你能成为谁呢？

这个巨头背后的大脑包括来自麻省理工学院和 MyShell 的秦增一、来自清华大学的赵文亮和余旭民，以及来自 MyShell 的 Ethan Sun。

对此有什么想法吗？ 请在下面的评论中给我们留言，或者将讨论转移到我们的 Twitter 或 Facebook。

编辑推荐：

谁拥有 ElevenLabs？
什么是十一实验室？
Figma 押注于 FigJam 的人工智能将使会议变得更轻松
微软的 AI Copilot 在 iOS 上起飞

请注意，如果您通过我们的链接购买商品，我们可能会获得一小部分销售份额。 这是我们保持这里灯火通明的方式之一。 单击此处了解更多信息。

该网站可让您在 30 秒内克隆任何人的声音

如何使用 MyShell 的 OpenVoice 克隆声音

克隆 OpenVoice 存储库

下载邮编

创建并激活Python环境

安装所需的包

如何使用开放语音

OpenVoice 的费用是多少？

OpenVoice 的潜力是什么？

在 Flipboard、Google 新闻或 Apple 新闻上关注我们