เว็บไซต์นี้ให้คุณโคลนเสียงของใครก็ได้ภายในเวลาไม่ถึง 30 วินาที
เผยแพร่แล้ว: 2024-01-04คุณเคยอยากให้เสียงที่ไพเราะของ Morgan Freeman บรรยายชีวิตประจำวันของคุณหรือไม่? หรือบางทีคุณอาจจินตนาการว่า GPS ของคุณพูดด้วยน้ำเสียงอันร้อนแรงของ Scarlett Johansson
ต้องขอบคุณเครื่องมือใหม่ที่เป็นนวัตกรรมจาก MyShell.ai ที่เรียกว่า OpenVoice ทำให้สิ่งนี้และอีกมากมายอยู่ใกล้แค่เอื้อม
แล้วมันคืออะไร? OpenVoice เป็นเครื่องมือโคลนเสียงแบบทันทีที่สามารถเลียนแบบเสียงใดๆ จากตัวอย่างเสียงสั้นๆ ได้
แต่ความมหัศจรรย์ที่แท้จริงก็คือมันไม่ได้หยุดอยู่เพียงการเลียนแบบเสียงของใครบางคน โดยพื้นฐานแล้วมันคัดสรรคุณลักษณะที่เป็นเอกลักษณ์ทั้งหมดจากเชอร์รี่
OpenVoice ช่วยให้สามารถควบคุมรูปแบบเสียงได้อย่างละเอียด รวมถึงอารมณ์ สำเนียง จังหวะ การหยุดชั่วคราว และน้ำเสียง ซึ่งเป็นคุณลักษณะที่เครื่องมือโคลนเสียงอื่นๆ ไม่มีให้บริการ
เทคโนโลยีทำงานโดยแยกองค์ประกอบของเสียงให้มากที่สุด ซึ่งหมายความว่าน้ำเสียง สไตล์ และภาษาถือเป็นองค์ประกอบส่วนบุคคล
ซึ่งช่วยให้สามารถจัดการเสียงพื้นฐาน สไตล์ และภาษาได้อย่างอิสระ มอบการปรับแต่งที่น่าประทับใจในระดับหนึ่ง
สิ่งที่ทำให้ OpenVoice แตกต่างจากรุ่นก่อนๆ เช่น ElevenLabs คือความสามารถในการโคลนเสียงข้ามภาษาแบบ Zero-shot ซึ่งหมายความว่า OpenVoice สามารถเลียนแบบเสียงในภาษาที่ไม่รวมอยู่ในชุดการฝึกอบรมได้
ดังนั้น หากคุณต้องการให้หนังสือเสียงอ่านภาษาฝรั่งเศสด้วยเสียงของผู้พูดภาษาอังกฤษ OpenVoice ช่วยคุณได้
วิธีโคลนเสียงด้วย OpenVoice ของ MyShell
แม้ว่าเทคโนโลยีจะซับซ้อน แต่การใช้ OpenVoice นั้นเรียบง่ายอย่างน่าประหลาดใจ
สิ่งที่คุณต้องมีก็แค่คลิปเสียงสั้น ๆ จากผู้พูดที่ต้องการ และภายในไม่กี่วินาที คุณสามารถสร้างคำพูดด้วยเสียงของบุคคลนั้น ในหลายภาษา พร้อมอารมณ์และสไตล์ที่หลากหลาย
คำแนะนำทีละขั้นตอนเกี่ยวกับวิธีใช้ OpenVoice ของ MyShell ตามคำแนะนำที่ให้ไว้ในหน้า GitHub:
แม้ว่าเทคโนโลยีจะซับซ้อน แต่การใช้ OpenVoice นั้นเรียบง่ายอย่างน่าประหลาดใจ
สิ่งที่คุณต้องมีก็แค่คลิปเสียงสั้น ๆ จากผู้พูดที่ต้องการ และภายในไม่กี่วินาที คุณสามารถสร้างคำพูดด้วยเสียงของบุคคลนั้น ในหลายภาษา พร้อมอารมณ์และสไตล์ที่หลากหลาย
โคลนพื้นที่เก็บข้อมูล OpenVoice
คุณสามารถทำได้โดยไปที่พื้นที่เก็บข้อมูล OpenVoice GitHub แล้วคลิกปุ่ม 'รหัส' สีเขียว จากนั้นคลิก 'ดาวน์โหลด ZIP' เพื่อดาวน์โหลดไฟล์ที่เก็บข้อมูลไปยังระบบภายในของคุณ
ดาวน์โหลด Zip
จากนั้นคลิก 'ดาวน์โหลด ZIP' เพื่อดาวน์โหลดไฟล์ที่เก็บข้อมูลไปยังระบบภายในของคุณ
สร้างและเปิดใช้งานสภาพแวดล้อม Python
สร้างสภาพแวดล้อม Python ใหม่และเปิดใช้งาน หากคุณใช้ Anaconda คุณสามารถทำได้โดยใช้คำสั่งต่อไปนี้ในเทอร์มินัลของคุณ:
conda create -n openvoice หลาม = 3.9
conda เปิดใช้งาน openvoiceติดตั้งแพ็คเกจที่จำเป็น
หากต้องการติดตั้งแพ็คเกจที่จำเป็น คุณสามารถทำได้โดยใช้คำสั่งต่อไปนี้ในเทอร์มินัลของคุณ:
conda ติดตั้ง pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-
cuda=11.7 -c pytorch -c nvidia
pip ติดตั้ง -r ข้อกำหนด.txtดาวน์โหลดจุดตรวจสอบจากที่นี่และแยกไปยังโฟลเดอร์
checkpoints
วิธีการใช้งาน OpenVoice
หมายเหตุ: สิ่งต่างๆ อาจมีทางเทคนิคเล็กน้อยที่นี่ หากคุณไม่มีประสบการณ์ในการเขียนโค้ดหรือไม่คุ้นเคยกับสภาพแวดล้อมของ Python นี่อาจเป็นเรื่องที่เกินความจำเป็นสำหรับคุณ แต่ถ้าคุณชอบถูกลงโทษบ้างก็เดินหน้าต่อไป
- การควบคุมสไตล์เสียงที่ยืดหยุ่น : คุณสามารถดูตัวอย่างวิธีที่ OpenVoice เปิดใช้งานการควบคุมสไตล์ที่ยืดหยุ่นเหนือเสียงที่ลอกแบบได้ใน
demo_part1.ipynb
- การโคลนเสียงข้ามภาษา : คุณสามารถดูตัวอย่างภาษาที่เห็นหรือไม่เห็นในชุดการฝึกอบรม MSML ใน
demo_part2.ipynb
- Gradio Demo : คุณสามารถเปิดการสาธิต Gradio ในเครื่องได้ด้วยคำสั่งต่อไปนี้ในเทอร์มินัลของคุณ:
python -m openvoice_app --share
การใช้งานขั้นสูง : สามารถเปลี่ยนลำโพงรุ่นฐานเป็นรุ่นใดก็ได้ (ในภาษาและสไตล์ใดก็ได้) ที่คุณต้องการ
คุณสามารถใช้ฟังก์ชัน se_extractor.get_se
ตามที่สาธิตในการสาธิตเพื่อแยกโทนสีที่ฝังไว้สำหรับลำโพงตัวฐานใหม่
2.5 เคล็ดลับในการสร้างคำพูดที่เป็นธรรมชาติ : มีวิธี TTS ที่ใช้ลำโพงเดี่ยวหรือหลายลำโพงหลายวิธีที่สามารถสร้างคำพูดที่เป็นธรรมชาติได้ ซึ่งหาได้ง่าย
เพียงเปลี่ยนรุ่นลำโพงฐานเป็นรุ่นที่คุณต้องการ คุณก็สามารถผลักดันความเป็นธรรมชาติของคำพูดให้อยู่ในระดับที่คุณต้องการได้
OpenVoice มีค่าใช้จ่ายเท่าไร?
ขณะนี้บริการนี้ใช้งานได้ฟรี และทีมงานที่ MyShell.ai ได้สร้างซอร์สโค้ดและโมเดลที่ได้รับการฝึกอบรมบน GitHub เพื่อให้นักพัฒนาสามารถทดลองและขยายเทคโนโลยีได้
OpenVoice มีศักยภาพอย่างไร
OpenVoice ไม่ใช่แค่กลไกที่สนุกสนานเท่านั้น
มีศักยภาพในการปฏิวัติอุตสาหกรรม ตั้งแต่ความบันเทิงและสื่อ ซึ่งสามารถนำไปใช้พากย์ภาพยนตร์หรือสร้างแชทบอทส่วนตัว ไปจนถึงการเข้าถึง ซึ่งสามารถส่งเสียงให้กับผู้ที่สูญเสียความเป็นตัวเองไป
แม้ว่าความเป็นไปได้ในการใช้งานในทางที่ผิด เช่น เสียงที่เป็นการปลอมแปลงข้อมูลหรือการโจรกรรมข้อมูลส่วนบุคคล เป็นเรื่องที่น่ากังวล แต่ทีมงานที่ MyShell.ai มุ่งมั่นที่จะปฏิบัติตามหลักเกณฑ์ด้านจริยธรรมและสำรวจมาตรการป้องกันเพื่อป้องกันการใช้งานในทางที่ผิดดังกล่าว
ในแง่ของความเร็วและความแม่นยำ OpenVoice เหนือกว่าคู่แข่ง เครื่องมือนี้มีประสิทธิภาพในการคำนวณ และทีมงานอ้างว่าสามารถสร้างวินาทีของคำพูดได้ในเวลาเพียง 85 มิลลิวินาที
OpenVoice เป็นภาพที่น่าตื่นเต้นเกี่ยวกับอนาคตของเทคโนโลยีเสียง
ด้วยความสามารถในการโคลนเสียงใดๆ ได้ทันที ความเป็นไปได้จึงดูเหมือนไม่มีที่สิ้นสุด แล้วทำไมไม่ลองดูว่าคุณจะเป็นใครล่ะ?
สมองที่อยู่เบื้องหลังโรงไฟฟ้าแห่งนี้ ได้แก่ Zengyi Qin จากห้องโถงของ MIT และ MyShell, Wenliang Zhao และ Xumin Yu จากมหาวิทยาลัย Tsinghua และสุดท้ายแต่ไม่ท้ายสุด Ethan Sun จาก MyShell
มีความคิดเห็นเกี่ยวกับเรื่องนี้บ้างไหม? ส่งข้อความถึงเราด้านล่างในความคิดเห็นหรือดำเนินการสนทนาบน Twitter หรือ Facebook ของเรา
คำแนะนำของบรรณาธิการ:
- ใครเป็นเจ้าของ ElevenLabs?
- ElevenLabs คืออะไร?
- การเดิมพัน AI ของ FigJam ของ Figma จะทำให้การประชุมทนได้มากขึ้น
- AI Copilot ของ Microsoft บินบน iOS
โปรดทราบว่าหากคุณซื้อสินค้าผ่านลิงก์ของเรา เราอาจได้รับส่วนแบ่งการขายเล็กน้อย นี่เป็นวิธีหนึ่งที่เราเปิดไฟไว้ที่นี่ คลิกที่นี่เพื่อดูข้อมูลเพิ่มเติม