เว็บไซต์นี้ให้คุณโคลนเสียงของใครก็ได้ภายในเวลาไม่ถึง 30 วินาที

เผยแพร่แล้ว: 2024-01-04

คุณเคยอยากให้เสียงที่ไพเราะของ Morgan Freeman บรรยายชีวิตประจำวันของคุณหรือไม่? หรือบางทีคุณอาจจินตนาการว่า GPS ของคุณพูดด้วยน้ำเสียงอันร้อนแรงของ Scarlett Johansson

ต้องขอบคุณเครื่องมือใหม่ที่เป็นนวัตกรรมจาก MyShell.ai ที่เรียกว่า OpenVoice ทำให้สิ่งนี้และอีกมากมายอยู่ใกล้แค่เอื้อม

แล้วมันคืออะไร? OpenVoice เป็นเครื่องมือโคลนเสียงแบบทันทีที่สามารถเลียนแบบเสียงใดๆ จากตัวอย่างเสียงสั้นๆ ได้

แต่ความมหัศจรรย์ที่แท้จริงก็คือมันไม่ได้หยุดอยู่เพียงการเลียนแบบเสียงของใครบางคน โดยพื้นฐานแล้วมันคัดสรรคุณลักษณะที่เป็นเอกลักษณ์ทั้งหมดจากเชอร์รี่

OpenVoice ช่วยให้สามารถควบคุมรูปแบบเสียงได้อย่างละเอียด รวมถึงอารมณ์ สำเนียง จังหวะ การหยุดชั่วคราว และน้ำเสียง ซึ่งเป็นคุณลักษณะที่เครื่องมือโคลนเสียงอื่นๆ ไม่มีให้บริการ

วิดีโอ: ยูทูป

เทคโนโลยีทำงานโดยแยกองค์ประกอบของเสียงให้มากที่สุด ซึ่งหมายความว่าน้ำเสียง สไตล์ และภาษาถือเป็นองค์ประกอบส่วนบุคคล

ซึ่งช่วยให้สามารถจัดการเสียงพื้นฐาน สไตล์ และภาษาได้อย่างอิสระ มอบการปรับแต่งที่น่าประทับใจในระดับหนึ่ง

สิ่งที่ทำให้ OpenVoice แตกต่างจากรุ่นก่อนๆ เช่น ElevenLabs คือความสามารถในการโคลนเสียงข้ามภาษาแบบ Zero-shot ซึ่งหมายความว่า OpenVoice สามารถเลียนแบบเสียงในภาษาที่ไม่รวมอยู่ในชุดการฝึกอบรมได้

ดังนั้น หากคุณต้องการให้หนังสือเสียงอ่านภาษาฝรั่งเศสด้วยเสียงของผู้พูดภาษาอังกฤษ OpenVoice ช่วยคุณได้

วิดีโอ: ยูทูป

วิธีโคลนเสียงด้วย OpenVoice ของ MyShell

แม้ว่าเทคโนโลยีจะซับซ้อน แต่การใช้ OpenVoice นั้นเรียบง่ายอย่างน่าประหลาดใจ

สิ่งที่คุณต้องมีก็แค่คลิปเสียงสั้น ๆ จากผู้พูดที่ต้องการ และภายในไม่กี่วินาที คุณสามารถสร้างคำพูดด้วยเสียงของบุคคลนั้น ในหลายภาษา พร้อมอารมณ์และสไตล์ที่หลากหลาย

คำแนะนำทีละขั้นตอนเกี่ยวกับวิธีใช้ OpenVoice ของ MyShell ตามคำแนะนำที่ให้ไว้ในหน้า GitHub:

โคลนพื้นที่เก็บข้อมูล OpenVoice
คุณสามารถทำได้โดยไปที่พื้นที่เก็บข้อมูล OpenVoice GitHub แล้วคลิกปุ่ม 'รหัส' สีเขียว จากนั้นคลิก 'ดาวน์โหลด ZIP' เพื่อดาวน์โหลดไฟล์ที่เก็บข้อมูลไปยังระบบภายในของคุณ
ดาวน์โหลด Zip
จากนั้นคลิก 'ดาวน์โหลด ZIP' เพื่อดาวน์โหลดไฟล์ที่เก็บข้อมูลไปยังระบบภายในของคุณ
สร้างและเปิดใช้งานสภาพแวดล้อม Python
สร้างสภาพแวดล้อม Python ใหม่และเปิดใช้งาน หากคุณใช้ Anaconda คุณสามารถทำได้โดยใช้คำสั่งต่อไปนี้ในเทอร์มินัลของคุณ:
conda create -n openvoice หลาม = 3.9
conda เปิดใช้งาน openvoice
ติดตั้งแพ็คเกจที่จำเป็น
หากต้องการติดตั้งแพ็คเกจที่จำเป็น คุณสามารถทำได้โดยใช้คำสั่งต่อไปนี้ในเทอร์มินัลของคุณ:

conda ติดตั้ง pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c nvidia
pip ติดตั้ง -r ข้อกำหนด.txt
ดาวน์โหลดจุดตรวจสอบจากที่นี่และแยกไปยังโฟลเดอร์ checkpoints

วิธีการใช้งาน OpenVoice

หมายเหตุ: สิ่งต่างๆ อาจมีทางเทคนิคเล็กน้อยที่นี่ หากคุณไม่มีประสบการณ์ในการเขียนโค้ดหรือไม่คุ้นเคยกับสภาพแวดล้อมของ Python นี่อาจเป็นเรื่องที่เกินความจำเป็นสำหรับคุณ แต่ถ้าคุณชอบถูกลงโทษบ้างก็เดินหน้าต่อไป

การควบคุมสไตล์เสียงที่ยืดหยุ่น : คุณสามารถดูตัวอย่างวิธีที่ OpenVoice เปิดใช้งานการควบคุมสไตล์ที่ยืดหยุ่นเหนือเสียงที่ลอกแบบได้ใน demo_part1.ipynb
การโคลนเสียงข้ามภาษา : คุณสามารถดูตัวอย่างภาษาที่เห็นหรือไม่เห็นในชุดการฝึกอบรม MSML ใน demo_part2.ipynb
Gradio Demo : คุณสามารถเปิดการสาธิต Gradio ในเครื่องได้ด้วยคำสั่งต่อไปนี้ในเทอร์มินัลของคุณ:

 python -m openvoice_app --share

การใช้งานขั้นสูง : สามารถเปลี่ยนลำโพงรุ่นฐานเป็นรุ่นใดก็ได้ (ในภาษาและสไตล์ใดก็ได้) ที่คุณต้องการ

Openview coding example on a purple background — ภาพ: KnowTechie

คุณสามารถใช้ฟังก์ชัน se_extractor.get_se ตามที่สาธิตในการสาธิตเพื่อแยกโทนสีที่ฝังไว้สำหรับลำโพงตัวฐานใหม่

2.5 เคล็ดลับในการสร้างคำพูดที่เป็นธรรมชาติ : มีวิธี TTS ที่ใช้ลำโพงเดี่ยวหรือหลายลำโพงหลายวิธีที่สามารถสร้างคำพูดที่เป็นธรรมชาติได้ ซึ่งหาได้ง่าย

เพียงเปลี่ยนรุ่นลำโพงฐานเป็นรุ่นที่คุณต้องการ คุณก็สามารถผลักดันความเป็นธรรมชาติของคำพูดให้อยู่ในระดับที่คุณต้องการได้

โปรดทราบว่าพื้นที่เก็บข้อมูลนี้ได้รับอนุญาตภายใต้ Creative Commons Attribution-NonCommercial 4.0 International License ซึ่งห้ามการใช้งานเชิงพาณิชย์

OpenVoice มีค่าใช้จ่ายเท่าไร?

ขณะนี้บริการนี้ใช้งานได้ฟรี และทีมงานที่ MyShell.ai ได้สร้างซอร์สโค้ดและโมเดลที่ได้รับการฝึกอบรมบน GitHub เพื่อให้นักพัฒนาสามารถทดลองและขยายเทคโนโลยีได้

OpenVoice มีศักยภาพอย่างไร

OpenVoice ไม่ใช่แค่กลไกที่สนุกสนานเท่านั้น

มีศักยภาพในการปฏิวัติอุตสาหกรรม ตั้งแต่ความบันเทิงและสื่อ ซึ่งสามารถนำไปใช้พากย์ภาพยนตร์หรือสร้างแชทบอทส่วนตัว ไปจนถึงการเข้าถึง ซึ่งสามารถส่งเสียงให้กับผู้ที่สูญเสียความเป็นตัวเองไป

แม้ว่าความเป็นไปได้ในการใช้งานในทางที่ผิด เช่น เสียงที่เป็นการปลอมแปลงข้อมูลหรือการโจรกรรมข้อมูลส่วนบุคคล เป็นเรื่องที่น่ากังวล แต่ทีมงานที่ MyShell.ai มุ่งมั่นที่จะปฏิบัติตามหลักเกณฑ์ด้านจริยธรรมและสำรวจมาตรการป้องกันเพื่อป้องกันการใช้งานในทางที่ผิดดังกล่าว

ตัวอย่างเทคโนโลยีการโคลนเสียง Openvoice — ภาพ: KnowTechie

ในแง่ของความเร็วและความแม่นยำ OpenVoice เหนือกว่าคู่แข่ง เครื่องมือนี้มีประสิทธิภาพในการคำนวณ และทีมงานอ้างว่าสามารถสร้างวินาทีของคำพูดได้ในเวลาเพียง 85 มิลลิวินาที

OpenVoice เป็นภาพที่น่าตื่นเต้นเกี่ยวกับอนาคตของเทคโนโลยีเสียง

ด้วยความสามารถในการโคลนเสียงใดๆ ได้ทันที ความเป็นไปได้จึงดูเหมือนไม่มีที่สิ้นสุด แล้วทำไมไม่ลองดูว่าคุณจะเป็นใครล่ะ?

สมองที่อยู่เบื้องหลังโรงไฟฟ้าแห่งนี้ ได้แก่ Zengyi Qin จากห้องโถงของ MIT และ MyShell, Wenliang Zhao และ Xumin Yu จากมหาวิทยาลัย Tsinghua และสุดท้ายแต่ไม่ท้ายสุด Ethan Sun จาก MyShell

มีความคิดเห็นเกี่ยวกับเรื่องนี้บ้างไหม? ส่งข้อความถึงเราด้านล่างในความคิดเห็นหรือดำเนินการสนทนาบน Twitter หรือ Facebook ของเรา

คำแนะนำของบรรณาธิการ:

ใครเป็นเจ้าของ ElevenLabs?
ElevenLabs คืออะไร?
การเดิมพัน AI ของ FigJam ของ Figma จะทำให้การประชุมทนได้มากขึ้น
AI Copilot ของ Microsoft บินบน iOS

โปรดทราบว่าหากคุณซื้อสินค้าผ่านลิงก์ของเรา เราอาจได้รับส่วนแบ่งการขายเล็กน้อย นี่เป็นวิธีหนึ่งที่เราเปิดไฟไว้ที่นี่ คลิกที่นี่เพื่อดูข้อมูลเพิ่มเติม

เว็บไซต์นี้ให้คุณโคลนเสียงของใครก็ได้ภายในเวลาไม่ถึง 30 วินาที

วิธีโคลนเสียงด้วย OpenVoice ของ MyShell

โคลนพื้นที่เก็บข้อมูล OpenVoice

ดาวน์โหลด Zip

สร้างและเปิดใช้งานสภาพแวดล้อม Python

ติดตั้งแพ็คเกจที่จำเป็น

วิธีการใช้งาน OpenVoice

OpenVoice มีค่าใช้จ่ายเท่าไร?

OpenVoice มีศักยภาพอย่างไร

ติดตามเราบน Flipboard, Google News หรือ Apple News