该网站可让您在 30 秒内克隆任何人的声音

已发表: 2024-01-04

您是否曾希望让摩根·弗里曼迷人的声音讲述您的日常生活? 或者您可能想象过您的 GPS 用斯嘉丽约翰逊性感的语气说话?

得益于 MyShell.ai 推出的名为 OpenVoice 的创新工具,这一点以及更多功能现在都触手可及。

那么,它是什么? OpenVoice 是一种即时语音克隆工具,可以通过简短的音频样本模仿任何声音。

但真正的魔力在于,它不仅仅只是模仿某人的声音;它还包括模仿他人的声音。 它本质上是精挑细选的所有独特特征。

OpenVoice 允许对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调,这是其他语音克隆工具根本不提供的功能。

视频:YouTube

该技术的工作原理是尽可能地解耦声音的各个组成部分,这意味着语气、风格和语言被视为单独的元素。

这使得基本语音、风格和语言能够独立操作,提供令人印象深刻的定制水平。

OpenVoice 与 ElevenLabs 等前辈的真正区别在于其零样本跨语言语音克隆能力。 这意味着 OpenVoice 可以模仿其训练集中未包含的语言的声音。

因此,如果您曾经希望由英语使用者的声音以法语朗读您的有声读物,OpenVoice 可以满足您的需求。

视频:YouTube

如何使用 MyShell 的 OpenVoice 克隆声音

尽管技术很复杂,但使用 OpenVoice 却出奇的简单。

它所需要的只是所需讲话者发出的简短音频片段,几秒钟之内,您就可以用该人的声音、多种语言以及各种情感和风格生成语音。

以下是有关如何根据 GitHub 页面上提供的说明使用 MyShell 的 OpenVoice 的分步指南:

碳1

尽管技术很复杂,但使用 OpenVoice 却出奇的简单。

它所需要的只是所需讲话者发出的简短音频片段,几秒钟之内,您就可以用该人的声音、多种语言以及各种情感和风格生成语音。

  1. 克隆 OpenVoice 存储库
    如何安装 openview myshell。人工智能

    您可以通过导航到 OpenVoice GitHub 存储库并单击绿色的“代码”按钮来完成此操作。 然后单击“下载 ZIP”将存储库文件下载到本地系统。

  2. 下载邮编
    如何安装openview语音克隆工具

    然后单击“下载 ZIP”将存储库文件下载到本地系统。

  3. 创建并激活Python环境
    碳1

    创建一个新的Python环境并激活它。 如果您使用的是 Anaconda,则可以在终端中使用以下命令来执行此操作:

    conda 创建-n openvoice python=3.9
    conda 激活 openvoice

  4. 安装所需的包
    Openview python enviorment

    要安装所需的软件包,您可以在终端中使用以下命令来执行此操作:

    conda 安装 pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
    cuda=11.7 -c pytorch -c nvidia
    pip install -r 要求.txt

    从此处下载检查点并将其解压到checkpoints文件夹中。

如何使用开放语音

注意:这里有点技术性。 如果您没有任何编码经验或者不熟悉 Python 环境,这可能会超出您的理解范围。 但如果你喜欢一点惩罚,那就让我们继续吧。

  • 灵活的语音风格控制:您可以在demo_part1.ipynb中查看 OpenVoice 如何对克隆语音进行灵活风格控制的示例。
  • 跨语言语音克隆:您可以在demo_part2.ipynb中查看 MSML 训练集中看到或未看到的语言的示例。
  • Gradio 演示:您可以在终端中使用以下命令启动本地 Gradio 演示:
 python -m openvoice_app --share

高级用法:基本扬声器模型可以替换为您喜欢的任何模型(任何语言和风格)。

Openview coding example on a purple background
图片:KnowTechie

您可以使用演示中演示的se_extractor.get_se函数来提取新基础扬声器的音色嵌入。

2.5生成自然语音的技巧: 有许多单人或多说话者 TTS 方法可以生成自然语音,这些方法很容易获得。

只需将基本扬声器模型替换为您喜欢的模型,您就可以将语音自然度提升到您想要的水平。

请注意,该存储库根据知识共享署名-非商业 4.0 国际许可证获得许可,禁止商业用途。

OpenVoice 的费用是多少?

该服务目前免费使用,MyShell.ai 团队已在 GitHub 上提供源代码和训练模型,允许开发人员试验和扩展该技术。

OpenVoice 的潜力是什么?

OpenVoice 不仅仅是一个有趣的噱头。

它有可能彻底改变各个行业,从娱乐和媒体(它可以用来配音电影或创建个性化聊天机器人)到可访问性(它可以为那些失去自己的人发出声音)。

虽然深度伪造音频或身份盗窃等潜在滥用问题令人担忧,但 MyShell.ai 团队致力于遵循道德准则并探索防止此类滥用的保障措施。

Openvoice 语音克隆技术示例
图片:KnowTechie

在速度和准确性方面,OpenVoice 超越了竞争对手。 该工具计算效率很高,团队声称它可以在短短 85 毫秒内生成一秒语音。

OpenVoice 是对语音技术未来的令人兴奋的一瞥。

凭借其立即克隆任何声音的能力,可能性似乎无穷无尽。 那么为什么不尝试一下,看看你能成为谁呢?

这个巨头背后的大脑包括来自麻省理工学院和 MyShell 的秦增一、来自清华大学的赵文亮和余旭民,以及来自 MyShell 的 Ethan Sun。

对此有什么想法吗? 请在下面的评论中给我们留言,或者将讨论转移到我们的 Twitter 或 Facebook。

编辑推荐:

  • 谁拥有 ElevenLabs?
  • 什么是十一实验室?
  • Figma 押注于 FigJam 的人工智能将使会议变得更轻松
  • 微软的 AI Copilot 在 iOS 上起飞

请注意,如果您通过我们的链接购买商品,我们可能会获得一小部分销售份额。 这是我们保持这里灯火通明的方式之一。 单击此处了解更多信息。

在 Flipboard、Google 新闻或 Apple 新闻上关注我们