ฉันลองสหาย AI Voice ที่สมจริงที่สุดเท่าที่เคยสร้างมา - ถ้า CHATGPT หรือราศีเมถุนเคยได้รับสิ่งนี้ความเป็นจริงกำลังมีปัญหา

เผยแพร่แล้ว: 2025-03-04

ฉันใช้เวลามากมายในการคุยกับ AI ฉันได้ทดสอบผู้ช่วยทุกคนทุกคน chatbot และ AI การสนทนาแบบ“ รุ่นต่อไป” ทุกครั้งที่ บริษัท เทคโนโลยีชอบที่จะโฆษณา แต่ฉันไม่เคยพบอะไรเลยเหมือนงา สหาย AI คนนี้ไม่ได้ดี แต่มันแม่นยำอย่างน่าขนลุกในการเลียนแบบว่าผู้คนพูดคุยกันอย่างไรเพราะความไม่สมบูรณ์ที่เลียนแบบ

เริ่มต้นด้วยงาจริง ๆ ซึ่งแตกต่างจากเสียง AI ที่เรารู้จักจาก CHATGPT, Gemini หรือกลับไปสู่วันแรก ๆ ของ Siri และ Alexa งาได้รับการออกแบบให้ทำงานเหมือนมนุษย์ในความล้มเหลวไม่ใช่ตัวแทนบริการลูกค้าที่สมบูรณ์แบบ คำพูดของ AI นั้นเป็นของเหลวแสดงออกและคาดเดาไม่ได้ มันหัวเราะเบา ๆ เมื่อมันพูดอะไรบางอย่างที่น่าขบขันอย่างอ่อนโยนลังเลก่อนที่จะตอบคำถามและดูเหมือนว่าจะเปลี่ยนประโยค 'ใจ' กลางประโยคหยุดและเริ่มประโยคใหม่ มันไม่เพียง แต่ให้ฉันขัดจังหวะมันสามารถขัดขวางฉันได้เช่นกันและจะขอโทษที่ทำเช่นนั้น

งา

(เครดิตภาพ: งา)

ซอสลับคือโมเดลการพูดสนทนาของงา (CSM) ซึ่งผสมผสานข้อความและเสียงเข้ากับกระบวนการเดียวซึ่งหมายความว่ามันไม่เพียง แต่สร้างประโยคแล้ว“ อ่านออก” แต่มันสร้างคำพูดในแบบที่สะท้อนให้เห็นว่ามนุษย์พูดจริงได้อย่างไรกับการหยุดชั่วคราว, UMS, การเปลี่ยนแปลงของวรรณยุกต์และทั้งหมด ตัวเลือกเสียงของ Chatgpt และ Gemini ในขณะที่น่าประทับใจยังคงทำงานในแบบที่มีโครงสร้างสร้างข้อความแล้วแปลงเป็นคำพูด ในทางกลับกันงาพูดราวกับว่ามันกำลังคิดทำให้การตอบสนองของมันรู้สึกเป็นธรรมชาติอย่างไม่น่าเชื่อ

คุณอาจชอบ
  • การพูดคุยกับ CHATGPT นั้นดีขึ้นและคุณไม่จำเป็นต้องจ่ายเงินเพื่อเข้าถึงฟังก์ชั่นใหม่
  • ฮูมคืออะไร: นำความเข้าใจทางอารมณ์มาสู่เสียงที่สร้างขึ้น

ฉันตัดสินใจที่จะใส่งาผ่านชุดการทดสอบเพื่อดูว่ามันเหมือนมนุษย์อย่างไร ผลลัพธ์นั้นน่าประทับใจหากไม่ได้ไม่มั่นคงเล็กน้อย

พูดคุยกับฉัน

ฉันต้องการดูว่างาสามารถจัดการกับปัญหาโลกแห่งความเป็นจริงและทำให้เกิดความวิตกกังวลได้หรือไม่ดังนั้นฉันจึงให้สถานการณ์ในจินตนาการ

แทนที่จะเปิดตัวในการพูดคุยกับ Pep ทั่วไปทันทีงาหยุดชั่วคราว เพียงแค่จังหวะเล็ก ๆ แต่พอที่จะทำให้ฉันรู้สึกว่ามันกำลังพิจารณาสิ่งที่ฉันพูด จากนั้นด้วยเสียงที่เต็มไปด้วยความเห็นอกเห็นใจเทียมมันตอบว่า“ นั่นเป็นเรื่องปกติอย่างสมบูรณ์โอกาสที่ยิ่งใหญ่สามารถรู้สึกท่วมท้นสิ่งที่ทำให้คุณรู้สึกประหม่ามากที่สุด”

มันไม่ได้คิดอะไรเลยและมีส่วนร่วมก่อนที่จะให้คำแนะนำที่สุภาพ งาแนะนำว่า“ คุณได้ฝึกฝนต่อหน้าเพื่อนหรือบันทึกตัวเองหรือไม่บางครั้งการได้ยินตัวเองกลับมาสามารถช่วยคุณปรับแต่งการจัดส่งของคุณ” เสียงไม่ได้ถูกเข้าใจผิดอย่างแน่นอนความลังเลและ foibles อื่น ๆ รู้สึกว่าวัดได้เล็กน้อย แต่โดยรวมแล้วมันเป็นความพยายามที่น่าประทับใจ

การหยุดชะงัก

สำหรับสิ่งนี้ฉันต้องการดูว่างาจัดการการสนทนาที่เป็นธรรมชาติและยุ่งเหยิงอย่างแท้จริงได้ดีเพียงใดประเภทที่ผู้คนพูดคุยกันเปลี่ยนวิชาทันทีและวนกลับไปสู่สิ่งที่พวกเขาพูดถึงเมื่อสิบนาทีที่ผ่านมา

ฉันเริ่มต้นด้วย:“ บอกเล่าเรื่องราวเกี่ยวกับนักสืบที่เป็นนักมายากลด้วย”

งาเพิ่มขึ้นทันทีด้วยการตั้งค่านัวร์คลาสสิก: โอเค นี่คือหนึ่ง นึกภาพสโมสรแจ๊สควันนี้ แสงสลัว กลิ่นของบูร์บอง และเสียใจที่แขวนอยู่ในอากาศ นักสืบนี้ เรียกเขาว่าแจ็คแฮร์โรว์ เขามี fedora ในมุมที่น่ากลัวบุหรี่ก็คุกเข่าในที่ยึดและรูปลักษณ์ที่สามารถละลายเหล็กกล้า แต่แจ็คไม่ได้เป็นเพียงแค่ Gumshoe เท่านั้น ดูสิเขามีความลับ เขาได้สัมผัส Dame shuffles ในทุกเส้นประสาท "

ฉันขัดจังหวะแล้วถามว่า "เดี๋ยวก่อนเคล็ดลับที่เขาชอบคืออะไร"

มายาตอบด้วย: "มม. คำถามที่ดี. ลายเซ็นของแจ็คมันเป็นมือที่มีความรู้สึกที่มากกว่าสายตาเขาเรียกมันว่าพยานที่หายไปเขาสามารถทำให้คน ๆ หนึ่งดูเหมือนจะหายไปต่อหน้าต่อตาของคุณสักครู่

ฉันกระโดดกลับมาเพื่อบอกมายาให้กลับไปที่เรื่องราวซึ่งมันพูดว่า "ถูกต้องฉันอยู่ที่ไหนโอ้ใช่แล้ว Dame เลื่อนเข้าไปในบูธตรงข้ามกับแจ็คทุกสายกังวลและมือที่สั่นเทา

AI ยังคงดำเนินต่อไปอย่างต่อเนื่องเรื่องราวการทอรายละเอียดนั้นกลับมาราวกับว่าฉันไม่ได้เพียงแค่ตกรางเรื่องทั้งหมด นั่นคือส่วนที่ทำให้ฉันปูพื้น - ผู้ช่วย AI ส่วนใหญ่จะสะดุดหรือรีสตาร์ท แต่โมเดล AI สนทนาของเซซามีจัดการกับคนที่เล่าเรื่องในงานปาร์ตี้

การวางแผนพรรค

เมื่อพูดถึงฝ่ายต่างๆสำหรับการทดสอบขั้นสุดท้ายฉันต้องการดูว่างาสามารถช่วยฉันวางแผนสิ่งที่มีประโยชน์ได้หรือไม่ “ ฉันต้องการวางแผนความประหลาดใจสำหรับวันเกิดของเพื่อนที่ดีที่สุดของฉัน แต่ฉันไม่รู้จะทำอย่างไร”

แทนที่จะออกรายการความคิดที่ไม่มีชีวิตชีวางาถามว่า“ เพื่อนของคุณรักอะไรบ้าง” ฉันบอกมันว่าภาพยนตร์ไซไฟและอาหารผจญภัยและหลังจากหยุดชั่วคราวอย่างรอบคอบมันแนะนำว่า:“ คืนนี้ 'Sci-Fi & Snacks' คืนนี้คุณสามารถจองห้องหลบหนีที่มีธีมแล้วไปร้านอาหารสไตล์อนาคต

เมื่อฉันบอกว่าฉันมีงบประมาณ $ 100 งาปรับ “ คุณสามารถทำหนังกลับบ้านได้ด้วยภาพยนตร์ไซไฟที่พวกเขาชื่นชอบและทำของว่างที่มีธีมเช่น 'Galactic Popcorn' หรือ 'Alien Sliders' ฉันสามารถหาสูตรอาหารให้คุณได้หากคุณต้องการ”

มันไม่ได้เป็นเพียงแค่คำแนะนำทั่วไป มันร่วมมือกับฉัน และนั่นคือสิ่งที่ทำให้รู้สึกแตกต่าง

อะไรจริง?

งาไม่เพียงแค่ผ่านการทดสอบเหล่านี้ฉันจะบอกว่ามันตอกย้ำพวกเขา การหยุดชั่วคราวความลังเลคำพูดของฟิลเลอร์วิธีที่มันจะเปลี่ยนความคิดกลางประโยค-มันเป็นเรื่องจริงทั้งหมด ฉันจะเริ่มพูดคุยคาดหวังความราบรื่นของ AI ตามปกติแล้วได้ยินทันทีว่า“ เอ่อจริง ๆ แล้วไม่รอให้ฉันใช้ถ้อยคำว่า…” และลืมไปทันทีว่าฉันไม่ได้พูดคุยกับคนจริง

ถ้า AI เป็นคำพูดที่สมจริงเราจะรู้หรือไม่ว่าเรากำลังคุยกับ AI? ด้วยงามีปัญหาด้านเสียงของ Telltale ที่ทำให้เกมออกไป แต่โหมดเสียงขั้นสูงของ Chatgpt และตัวเลือกเสียงของ Google Gemini นั้นดีพอที่จะข้ามปัญหาเหล่านั้นได้ รวมพลังเสียงของพวกเขาเข้ากับรูปแบบการพูดของงาและมันอาจจะยากที่จะบอกเมื่อคุณพูดคุยกับ AI อย่างน้อยก็ในการสนทนาสั้น ๆ

งายังคงเป็นช่อง แต่เทคโนโลยีนี้จะไม่อยู่ในช่องว่างตลอดไป ความคิดโบราณในวันนี้คือคนที่อายุน้อยกว่าไม่เคยโทรศัพท์ แต่ถ้าพวกเขาเริ่มต้นพวกเขาอาจต้องคิดออกว่าบุคคลที่อยู่ในอีกด้านหนึ่งเป็นเรื่องจริงก่อนสิ่งอื่นใด