Этот веб-сайт позволяет клонировать чей-либо голос менее чем за 30 секунд.

Опубликовано: 2024-01-04

Вы когда-нибудь хотели, чтобы чарующий голос Моргана Фримена рассказывал о вашей повседневной жизни? Или, возможно, вы представили, что ваш GPS говорит знойным тоном Скарлетт Йоханссон?

Благодаря новому инновационному инструменту MyShell.ai под названием OpenVoice это и многое другое теперь стало доступно.

Итак, что это такое? OpenVoice — это инструмент мгновенного клонирования голоса, который может имитировать любой голос, используя лишь короткий аудиосэмпл.

Но настоящее волшебство в том, что оно не ограничивается имитацией чьего-то голоса; по сути, он выбирает все свои уникальные характеристики.

OpenVoice обеспечивает детальный контроль над стилями голоса, включая эмоции, акцент, ритм, паузы и интонацию — функцию, которую другие инструменты клонирования голоса просто не предлагают.

Видео: YouTube

Технология работает путем максимального разделения компонентов голоса, то есть тон, стиль и язык рассматриваются как отдельные элементы.

Это позволяет независимо управлять базовым голосом, стилем и языком, предлагая впечатляющий уровень настройки.

Что действительно отличает OpenVoice от своих предшественников, таких как ElevenLabs, так это возможность беспрепятственного межъязыкового клонирования голоса. Это означает, что OpenVoice может имитировать голоса на языках, которые не включены в его обучающий набор.

Итак, если вы когда-нибудь хотели, чтобы ваша аудиокнига была прочитана на французском языке голосом говорящего по-английски, OpenVoice поможет вам.

Видео: YouTube

Как клонировать голос с помощью OpenVoice MyShell

Хотя технология сложна, использовать OpenVoice на удивление просто.

Все, что для этого требуется, — это короткий аудиоклип от нужного говорящего, и за считанные секунды вы сможете создать речь голосом этого человека на нескольких языках, с различными эмоциями и стилями.

Вот пошаговое руководство по использованию OpenVoice MyShell, основанное на инструкциях, представленных на их странице GitHub:

Хотя технология сложна, использовать OpenVoice на удивление просто.

Клонировать репозиторий OpenVoice
Вы можете сделать это, перейдя в репозиторий OpenVoice GitHub и нажав зеленую кнопку «Код». Затем нажмите «Загрузить ZIP», чтобы загрузить файлы репозитория в локальную систему.
Скачать ZIP
Затем нажмите «Загрузить ZIP», чтобы загрузить файлы репозитория в локальную систему.
Создайте и активируйте среду Python
Создайте новую среду Python и активируйте ее. Если вы используете Anaconda, вы можете сделать это с помощью следующих команд в терминале:

conda create -n openvoice python=3.9
Конда активирует OpenVoice
Установите необходимые пакеты
Чтобы установить необходимые пакеты, вы можете сделать это с помощью следующих команд в терминале:
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c nvidia
pip install -r требования.txt
Загрузите контрольную точку отсюда и извлеките ее в папку checkpoints .

Как использовать OpenVoice

Примечание. Здесь все становится немного техническим. Если у вас нет опыта программирования или вы не знакомы со средой Python, это, вероятно, будет для вас непостижимо. Но если вам нравится немного наказания, то давайте двинемся дальше.

Гибкое управление стилем голоса . Пример того, как OpenVoice обеспечивает гибкое управление стилем клонированного голоса, можно увидеть в demo_part1.ipynb .
Межъязыковое клонирование голоса : вы можете увидеть пример языков, видимых или невидимых в обучающем наборе MSML, в demo_part2.ipynb .
Демо-версия Gradio : вы можете запустить локальную демо-версию Gradio с помощью следующей команды в терминале:

 python -m openvoice_app --share

Расширенное использование : базовую модель динамика можно заменить на любую модель (на любом языке и в любом стиле), которую вы предпочитаете.

Openview coding example on a purple background — Изображение: KnowTechie

Вы можете использовать функцию se_extractor.get_se , как показано в демонстрации, чтобы извлечь внедрение цвета тона для нового базового динамика.

2.5 Советы по созданию естественной речи . Существует множество легкодоступных методов TTS с одним или несколькими динамиками, которые могут генерировать естественную речь.

Просто заменив базовую модель динамика на модель, которую вы предпочитаете, вы можете повысить естественность речи до желаемого уровня.

Обратите внимание, что этот репозиторий лицензируется в соответствии с международной лицензией Creative Commons Attribution-NonCommercial 4.0, которая запрещает коммерческое использование.

Сколько стоит OpenVoice?

В настоящее время сервис можно использовать бесплатно, а команда MyShell.ai разместила исходный код и обученную модель на GitHub, что позволяет разработчикам экспериментировать и расширять технологию.

Каков потенциал OpenVoice?

OpenVoice — это не просто забавный трюк.

У него есть потенциал совершить революцию в отраслях, от развлечений и средств массовой информации, где его можно использовать для дублирования фильмов или создания персонализированных чат-ботов, до доступности, где он может дать голос тем, кто потерял свой собственный голос.

Хотя возможность неправомерного использования, такого как дипфейк аудио или кража личных данных, вызывает беспокойство, команда MyShell.ai стремится следовать этическим принципам и изучать меры безопасности для предотвращения такого неправомерного использования.

Пример технологии клонирования голоса Openvoice — Изображение: KnowTechie

С точки зрения скорости и точности OpenVoice превосходит своих конкурентов. Инструмент эффективен в вычислительном отношении, и команда утверждает, что он может сгенерировать секунду речи всего за 85 миллисекунд.

OpenVoice — это захватывающий взгляд на будущее голосовых технологий.

Благодаря способности мгновенно клонировать любой голос возможности кажутся безграничными. Так почему бы не попробовать и посмотреть, кем вы можете стать?

Инициаторами этого мощного проекта являются Цзэньи Цинь из Массачусетского технологического института и MyShell, Вэньлян Чжао и Сюминь Юй из Университета Цинхуа и, наконец, что не менее важно, Итан Сан из MyShell.

Есть какие-нибудь мысли по этому поводу? Напишите нам в комментариях ниже или перенесите обсуждение в наш Twitter или Facebook.

Рекомендации редакции:

Кому принадлежит ElevenLabs?
Что такое ElevenLabs?
Ставка Figma на искусственный интеллект FigJam сделает встречи более терпимыми
AI Copilot от Microsoft начинает полет на iOS

Внимание: если вы купите что-то по нашим ссылкам, мы можем получить небольшую долю от продажи. Это один из способов поддерживать здесь свет. Нажмите здесь, чтобы узнать больше.

Этот веб-сайт позволяет клонировать чей-либо голос менее чем за 30 секунд.

Как клонировать голос с помощью OpenVoice MyShell

Клонировать репозиторий OpenVoice

Скачать ZIP

Создайте и активируйте среду Python

Установите необходимые пакеты

Как использовать OpenVoice

Сколько стоит OpenVoice?

Каков потенциал OpenVoice?

Следите за нами в Flipboard, Google News или Apple News.