يتيح لك هذا الموقع استنساخ صوت أي شخص في أقل من 30 ثانية
نشرت: 2024-01-04هل سبق لك أن تمنيت أن يروي صوت مورغان فريمان الآسر حياتك اليومية؟ أو ربما تخيلت أن جهاز تحديد المواقع الخاص بك يتحدث بنغمات سكارليت جوهانسون المثيرة؟
بفضل أداة جديدة ومبتكرة من MyShell.ai، تسمى OpenVoice، أصبح هذا وغيره الكثير في متناول اليد الآن.
إذا ما هو؟ OpenVoice هي أداة استنساخ صوت فورية يمكنها محاكاة أي صوت من مجرد عينة صوتية قصيرة.
لكن السحر الحقيقي هو أنه لا يتوقف عند تقليد صوت شخص ما؛ فهو في الأساس ينتقي جميع خصائصه الفريدة.
يسمح OpenVoice بالتحكم الدقيق في أنماط الصوت، بما في ذلك العاطفة واللهجة والإيقاع والإيقاف المؤقت والتنغيم، وهي ميزة لا توفرها أدوات استنساخ الصوت الأخرى.
تعمل هذه التقنية من خلال فصل مكونات الصوت قدر الإمكان، مما يعني التعامل مع النغمة والأسلوب واللغة كعناصر فردية.
يتيح ذلك إمكانية التلاعب بالصوت الأساسي والأسلوب واللغة بشكل مستقل، مما يوفر مستوى مثيرًا للإعجاب من التخصيص.
إن ما يميز OpenVoice حقًا عن سابقاته، مثل ElevenLabs، هو قدرته على استنساخ الصوت عبر اللغات بدون أي لقطة. وهذا يعني أن OpenVoice يمكنه تقليد الأصوات باللغات غير المضمنة في مجموعة التدريب الخاصة به.
لذا، إذا كنت ترغب في قراءة كتابك الصوتي باللغة الفرنسية بصوت أحد المتحدثين باللغة الإنجليزية، فإن OpenVoice هو ما تحتاجه.
كيفية استنساخ صوت باستخدام MyShell's OpenVoice
على الرغم من أن التكنولوجيا معقدة، إلا أن استخدام OpenVoice بسيط بشكل مدهش.
كل ما يتطلبه الأمر هو مقطع صوتي قصير من المتحدث المطلوب، وفي غضون ثوانٍ، يمكنك إنشاء خطاب بصوت ذلك الشخص، بلغات متعددة، وبمجموعة من المشاعر والأساليب.
فيما يلي دليل خطوة بخطوة حول كيفية استخدام MyShell's OpenVoice بناءً على الإرشادات المتوفرة على صفحة GitHub الخاصة بهم:
على الرغم من أن التكنولوجيا معقدة، إلا أن استخدام OpenVoice بسيط بشكل مدهش.
كل ما يتطلبه الأمر هو مقطع صوتي قصير من المتحدث المطلوب، وفي غضون ثوانٍ، يمكنك إنشاء خطاب بصوت ذلك الشخص، بلغات متعددة، وبمجموعة من المشاعر والأساليب.
استنساخ مستودع OpenVoice
يمكنك القيام بذلك عن طريق الانتقال إلى مستودع OpenVoice GitHub والنقر فوق الزر "Code" الأخضر. ثم انقر فوق "تنزيل ZIP" لتنزيل ملفات المستودع إلى نظامك المحلي.
تحميل الرمز البريدي
ثم انقر فوق "تنزيل ZIP" لتنزيل ملفات المستودع إلى نظامك المحلي.
إنشاء وتفعيل بيئة بايثون
إنشاء بيئة بايثون جديدة وتفعيلها. إذا كنت تستخدم Anaconda، فيمكنك القيام بذلك باستخدام الأوامر التالية في جهازك الطرفي:
conda create -n openvoice python=3.9
كوندا تفعيل الصوت المفتوحتثبيت الحزم المطلوبة
لتثبيت الحزم المطلوبة، يمكنك القيام بذلك باستخدام الأوامر التالية في جهازك الطرفي:
conda تثبيت pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c nvidia
تثبيت النقطة -r متطلبات.txtقم بتحميل نقطة التفتيش من هنا واستخرجها إلى مجلد
checkpoints
.
كيفية استخدام OpenVoice
ملاحظة: تصبح الأمور تقنية بعض الشيء هنا. إذا لم تكن لديك أي خبرة في البرمجة أو لم تكن على دراية ببيئات بايثون، فمن المحتمل أن يخطر ببالك هذا الأمر. لكن إذا كنت تستمتع بالقليل من العقاب، فلنمضي قدمًا.
- التحكم المرن في نمط الصوت : يمكنك مشاهدة مثال لكيفية تمكين OpenVoice للتحكم المرن في نمط الصوت المستنسخ في
demo_part1.ipynb
. - استنساخ الصوت عبر اللغات : يمكنك رؤية مثال للغات المرئية أو غير المرئية في مجموعة تدريب MSML في
demo_part2.ipynb
. - Gradio Demo : يمكنك تشغيل عرض Gradio محلي باستخدام الأمر التالي في جهازك الطرفي:
python -m openvoice_app --share
الاستخدام المتقدم : يمكن استبدال طراز السماعة الأساسي بأي طراز (بأي لغة وأسلوب) تفضله.
يمكنك استخدام وظيفة se_extractor.get_se
كما هو موضح في العرض التوضيحي لاستخراج تضمين لون النغمة لمكبر الصوت الأساسي الجديد.
2.5 نصائح لتوليد كلام طبيعي : هناك العديد من أساليب تحويل النص إلى كلام (TTS) الفردية أو متعددة المتحدثين التي يمكنها توليد كلام طبيعي، وهي متاحة بسهولة.
بمجرد استبدال طراز السماعة الأساسية بالطراز الذي تفضله، يمكنك دفع طبيعة الكلام إلى المستوى الذي تريده.
كم تبلغ تكلفة OpenVoice؟
الخدمة متاحة حاليًا مجانًا، وقد قام فريق MyShell.ai بإتاحة الكود المصدري والنموذج المدرب على GitHub، مما يسمح للمطورين بتجربة التكنولوجيا وتوسيعها.
ما هي إمكانات OpenVoice؟
OpenVoice ليس مجرد وسيلة للتحايل الممتعة.
لديه القدرة على إحداث ثورة في الصناعات، بدءًا من الترفيه والإعلام، حيث يمكن استخدامه لدبلجة الأفلام أو إنشاء روبوتات دردشة مخصصة، إلى إمكانية الوصول، حيث يمكن أن يمنح صوتًا لأولئك الذين فقدوا صوتهم.
في حين أن احتمالية إساءة الاستخدام، مثل الصوت المزيف العميق أو سرقة الهوية، تشكل مصدر قلق، فإن فريق MyShell.ai ملتزم باتباع الإرشادات الأخلاقية واستكشاف الضمانات لمنع سوء الاستخدام هذا.
من حيث السرعة والدقة، يتفوق OpenVoice على منافسيه. تتميز الأداة بالكفاءة الحسابية، ويدعي الفريق أنها تستطيع توليد ثانية من الكلام خلال 85 مللي ثانية فقط.
يعد OpenVoice لمحة مثيرة عن مستقبل تكنولوجيا الصوت.
ومع قدرته على استنساخ أي صوت على الفور، تبدو الاحتمالات لا حصر لها. فلماذا لا تجربها وترى من يمكن أن تصبح؟
العقول التي تقف وراء هذه القوة تشمل Zengyi Qin من قاعات معهد ماساتشوستس للتكنولوجيا وMyShell، وWenliang Zhao، وXumin Yu، وكلاهما من جامعة Tsinghua، وأخيرًا وليس آخرًا، Ethan Sun من MyShell.
هل لديك أي أفكار حول هذا؟ أرسل لنا سطرًا أدناه في التعليقات، أو قم بنقل المناقشة إلى Twitter أو Facebook.
توصيات المحررين:
- من يملك ElevenLabs؟
- ما هو أحد عشر مختبرا؟
- رهان Figma على الذكاء الاصطناعي الخاص بـ FigJam سيجعل الاجتماعات أكثر احتمالاً
- يطير مساعد AI Copilot من Microsoft على نظام التشغيل iOS
مجرد تنبيه، إذا قمت بشراء شيء ما عبر الروابط الخاصة بنا، فقد نحصل على حصة صغيرة من البيع. إنها إحدى الطرق التي نبقي بها الأضواء هنا. اضغط هنا للمزيد.