يتيح لك هذا الموقع استنساخ صوت أي شخص في أقل من 30 ثانية

نشرت: 2024-01-04

هل سبق لك أن تمنيت أن يروي صوت مورغان فريمان الآسر حياتك اليومية؟ أو ربما تخيلت أن جهاز تحديد المواقع الخاص بك يتحدث بنغمات سكارليت جوهانسون المثيرة؟

بفضل أداة جديدة ومبتكرة من MyShell.ai، تسمى OpenVoice، أصبح هذا وغيره الكثير في متناول اليد الآن.

إذا ما هو؟ OpenVoice هي أداة استنساخ صوت فورية يمكنها محاكاة أي صوت من مجرد عينة صوتية قصيرة.

لكن السحر الحقيقي هو أنه لا يتوقف عند تقليد صوت شخص ما؛ فهو في الأساس ينتقي جميع خصائصه الفريدة.

يسمح OpenVoice بالتحكم الدقيق في أنماط الصوت، بما في ذلك العاطفة واللهجة والإيقاع والإيقاف المؤقت والتنغيم، وهي ميزة لا توفرها أدوات استنساخ الصوت الأخرى.

فيديو: يوتيوب

تعمل هذه التقنية من خلال فصل مكونات الصوت قدر الإمكان، مما يعني التعامل مع النغمة والأسلوب واللغة كعناصر فردية.

يتيح ذلك إمكانية التلاعب بالصوت الأساسي والأسلوب واللغة بشكل مستقل، مما يوفر مستوى مثيرًا للإعجاب من التخصيص.

إن ما يميز OpenVoice حقًا عن سابقاته، مثل ElevenLabs، هو قدرته على استنساخ الصوت عبر اللغات بدون أي لقطة. وهذا يعني أن OpenVoice يمكنه تقليد الأصوات باللغات غير المضمنة في مجموعة التدريب الخاصة به.

لذا، إذا كنت ترغب في قراءة كتابك الصوتي باللغة الفرنسية بصوت أحد المتحدثين باللغة الإنجليزية، فإن OpenVoice هو ما تحتاجه.

فيديو: يوتيوب

كيفية استنساخ صوت باستخدام MyShell's OpenVoice

على الرغم من أن التكنولوجيا معقدة، إلا أن استخدام OpenVoice بسيط بشكل مدهش.

كل ما يتطلبه الأمر هو مقطع صوتي قصير من المتحدث المطلوب، وفي غضون ثوانٍ، يمكنك إنشاء خطاب بصوت ذلك الشخص، بلغات متعددة، وبمجموعة من المشاعر والأساليب.

فيما يلي دليل خطوة بخطوة حول كيفية استخدام MyShell's OpenVoice بناءً على الإرشادات المتوفرة على صفحة GitHub الخاصة بهم:

الكربون 1

على الرغم من أن التكنولوجيا معقدة، إلا أن استخدام OpenVoice بسيط بشكل مدهش.

كل ما يتطلبه الأمر هو مقطع صوتي قصير من المتحدث المطلوب، وفي غضون ثوانٍ، يمكنك إنشاء خطاب بصوت ذلك الشخص، بلغات متعددة، وبمجموعة من المشاعر والأساليب.

  1. استنساخ مستودع OpenVoice
    كيفية تثبيت برنامج openview myshell. منظمة العفو الدولية

    يمكنك القيام بذلك عن طريق الانتقال إلى مستودع OpenVoice GitHub والنقر فوق الزر "Code" الأخضر. ثم انقر فوق "تنزيل ZIP" لتنزيل ملفات المستودع إلى نظامك المحلي.

  2. تحميل الرمز البريدي
    كيفية تثبيت أداة استنساخ الصوت openview

    ثم انقر فوق "تنزيل ZIP" لتنزيل ملفات المستودع إلى نظامك المحلي.

  3. إنشاء وتفعيل بيئة بايثون
    الكربون 1

    إنشاء بيئة بايثون جديدة وتفعيلها. إذا كنت تستخدم Anaconda، فيمكنك القيام بذلك باستخدام الأوامر التالية في جهازك الطرفي:

    conda create -n openvoice python=3.9
    كوندا تفعيل الصوت المفتوح

  4. تثبيت الحزم المطلوبة
    Openview python enviorment

    لتثبيت الحزم المطلوبة، يمكنك القيام بذلك باستخدام الأوامر التالية في جهازك الطرفي:

    conda تثبيت pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
    cuda=11.7 -c pytorch -c nvidia
    تثبيت النقطة -r متطلبات.txt

    قم بتحميل نقطة التفتيش من هنا واستخرجها إلى مجلد checkpoints .

كيفية استخدام OpenVoice

ملاحظة: تصبح الأمور تقنية بعض الشيء هنا. إذا لم تكن لديك أي خبرة في البرمجة أو لم تكن على دراية ببيئات بايثون، فمن المحتمل أن يخطر ببالك هذا الأمر. لكن إذا كنت تستمتع بالقليل من العقاب، فلنمضي قدمًا.

  • التحكم المرن في نمط الصوت : يمكنك مشاهدة مثال لكيفية تمكين OpenVoice للتحكم المرن في نمط الصوت المستنسخ في demo_part1.ipynb .
  • استنساخ الصوت عبر اللغات : يمكنك رؤية مثال للغات المرئية أو غير المرئية في مجموعة تدريب MSML في demo_part2.ipynb .
  • Gradio Demo : يمكنك تشغيل عرض Gradio محلي باستخدام الأمر التالي في جهازك الطرفي:
 python -m openvoice_app --share

الاستخدام المتقدم : يمكن استبدال طراز السماعة الأساسي بأي طراز (بأي لغة وأسلوب) تفضله.

Openview coding example on a purple background
الصورة: KnowTechie

يمكنك استخدام وظيفة se_extractor.get_se كما هو موضح في العرض التوضيحي لاستخراج تضمين لون النغمة لمكبر الصوت الأساسي الجديد.

2.5 نصائح لتوليد كلام طبيعي : هناك العديد من أساليب تحويل النص إلى كلام (TTS) الفردية أو متعددة المتحدثين التي يمكنها توليد كلام طبيعي، وهي متاحة بسهولة.

بمجرد استبدال طراز السماعة الأساسية بالطراز الذي تفضله، يمكنك دفع طبيعة الكلام إلى المستوى الذي تريده.

يرجى ملاحظة أن هذا المستودع مرخص بموجب ترخيص Creative Commons Attribution-NonCommercial 4.0 International License، والذي يحظر الاستخدام التجاري.

كم تبلغ تكلفة OpenVoice؟

الخدمة متاحة حاليًا مجانًا، وقد قام فريق MyShell.ai بإتاحة الكود المصدري والنموذج المدرب على GitHub، مما يسمح للمطورين بتجربة التكنولوجيا وتوسيعها.

ما هي إمكانات OpenVoice؟

OpenVoice ليس مجرد وسيلة للتحايل الممتعة.

لديه القدرة على إحداث ثورة في الصناعات، بدءًا من الترفيه والإعلام، حيث يمكن استخدامه لدبلجة الأفلام أو إنشاء روبوتات دردشة مخصصة، إلى إمكانية الوصول، حيث يمكن أن يمنح صوتًا لأولئك الذين فقدوا صوتهم.

في حين أن احتمالية إساءة الاستخدام، مثل الصوت المزيف العميق أو سرقة الهوية، تشكل مصدر قلق، فإن فريق MyShell.ai ملتزم باتباع الإرشادات الأخلاقية واستكشاف الضمانات لمنع سوء الاستخدام هذا.

مثال على تقنية استنساخ الصوت Openvoice
الصورة: KnowTechie

من حيث السرعة والدقة، يتفوق OpenVoice على منافسيه. تتميز الأداة بالكفاءة الحسابية، ويدعي الفريق أنها تستطيع توليد ثانية من الكلام خلال 85 مللي ثانية فقط.

يعد OpenVoice لمحة مثيرة عن مستقبل تكنولوجيا الصوت.

ومع قدرته على استنساخ أي صوت على الفور، تبدو الاحتمالات لا حصر لها. فلماذا لا تجربها وترى من يمكن أن تصبح؟

العقول التي تقف وراء هذه القوة تشمل Zengyi Qin من قاعات معهد ماساتشوستس للتكنولوجيا وMyShell، وWenliang Zhao، وXumin Yu، وكلاهما من جامعة Tsinghua، وأخيرًا وليس آخرًا، Ethan Sun من MyShell.

هل لديك أي أفكار حول هذا؟ أرسل لنا سطرًا أدناه في التعليقات، أو قم بنقل المناقشة إلى Twitter أو Facebook.

توصيات المحررين:

  • من يملك ElevenLabs؟
  • ما هو أحد عشر مختبرا؟
  • رهان Figma على الذكاء الاصطناعي الخاص بـ FigJam سيجعل الاجتماعات أكثر احتمالاً
  • يطير مساعد AI Copilot من Microsoft على نظام التشغيل iOS

مجرد تنبيه، إذا قمت بشراء شيء ما عبر الروابط الخاصة بنا، فقد نحصل على حصة صغيرة من البيع. إنها إحدى الطرق التي نبقي بها الأضواء هنا. اضغط هنا للمزيد.

تابعنا على Flipboard أو Google News أو Apple News