ChatGPT และ AI ภาษาอื่นๆ ก็ไร้เหตุผลพอๆ กับเรา

เผยแพร่แล้ว: 2023-04-10

ในช่วงไม่กี่ปีที่ผ่านมามีความก้าวหน้าอย่างมากมายในระบบปัญญาประดิษฐ์แบบจำลองภาษาขนาดใหญ่ที่สามารถทำสิ่งต่างๆ เช่น เขียนบทกวี ทำการสนทนาแบบมนุษย์ และสอบผ่านโรงเรียนแพทย์

ความคืบหน้านี้ทำให้เกิดโมเดลเช่น ChatGPT ซึ่งอาจมีผลทางสังคมและเศรษฐกิจที่สำคัญตั้งแต่การเลิกจ้างงานและการเพิ่มข้อมูลที่ผิดไปจนถึงการเพิ่มผลผลิตจำนวนมาก

แม้จะมีความสามารถที่น่าประทับใจ แต่แบบจำลองภาษาขนาดใหญ่ไม่ได้คิดจริงๆ พวกเขามักจะทำผิดพลาดเบื้องต้นและแม้แต่สร้างสิ่งต่างๆ

อย่างไรก็ตาม เนื่องจากพวกเขาสร้างภาษาที่คล่องแคล่ว ผู้คนมักจะตอบสนองต่อพวกเขาราวกับว่าพวกเขาคิด

ChatGPT บนแล็ปท็อป
รูปภาพ: Pexels

สิ่งนี้ทำให้นักวิจัยศึกษาความสามารถและอคติของ "ความรู้ความเข้าใจ" ของโมเดล ซึ่งเป็นงานที่มีความสำคัญมากขึ้นในขณะนี้ที่โมเดลภาษาขนาดใหญ่สามารถเข้าถึงได้อย่างกว้างขวาง

สายการวิจัยนี้ย้อนกลับไปถึงรูปแบบภาษาขนาดใหญ่ในยุคแรกๆ เช่น BERT ของ Google ซึ่งรวมเข้ากับเครื่องมือค้นหาของตน และได้รับการบัญญัติศัพท์ว่า BERTology

การวิจัยนี้ได้เปิดเผยมากมายเกี่ยวกับสิ่งที่โมเดลดังกล่าวสามารถทำได้และจุดที่ผิดพลาด

ตัวอย่างเช่น การทดลองที่ออกแบบมาอย่างชาญฉลาดได้แสดงให้เห็นว่าแบบจำลองทางภาษาจำนวนมากมีปัญหาในการจัดการกับคำปฏิเสธ ตัวอย่างเช่น คำถามที่ระบุว่า "อะไรไม่ใช่" และทำการคำนวณอย่างง่าย

พวกเขาสามารถมั่นใจมากเกินไปในคำตอบแม้ว่าจะตอบผิดก็ตาม เช่นเดียวกับอัลกอริทึมแมชชีนเลิร์นนิงสมัยใหม่อื่นๆ พวกเขามีปัญหาในการอธิบายตัวเองเมื่อถูกถามว่าทำไมพวกเขาถึงตอบแบบนั้น

คำพูดและความคิด

ด้วยแรงบันดาลใจจากการวิจัยที่เพิ่มขึ้นใน BERTology และสาขาที่เกี่ยวข้อง เช่น วิทยาศาสตร์การรู้คิด นักเรียนของฉัน Zhisheng Tang และฉันจึงตั้งใจที่จะตอบคำถามที่ดูเหมือนง่ายๆ เกี่ยวกับแบบจำลองภาษาขนาดใหญ่: พวกเขามีเหตุผลหรือไม่

แม้ว่าคำว่าเหตุผลมักใช้เป็นคำพ้องความหมายหรือสมเหตุสมผลในภาษาอังกฤษในชีวิตประจำวัน แต่ก็มีความหมายเฉพาะในด้านการตัดสินใจ

ระบบการตัดสินใจ - ไม่ว่าจะเป็นมนุษย์แต่ละคนหรือหน่วยงานที่ซับซ้อนเช่นองค์กร - นั้นมีเหตุผลหากได้รับตัวเลือกชุดหนึ่ง ระบบเลือกที่จะเพิ่มผลกำไรที่คาดหวังให้ได้สูงสุด

ตัวระบุ "คาดหวัง" มีความสำคัญเนื่องจากบ่งชี้ว่าการตัดสินใจเกิดขึ้นภายใต้เงื่อนไขของความไม่แน่นอนที่มีนัยสำคัญ

ถ้าฉันโยนเหรียญที่ยุติธรรม ฉันรู้ว่ามันจะออกหัวครึ่งหนึ่งของเวลาโดยเฉลี่ย อย่างไรก็ตาม ฉันไม่สามารถทำนายผลของการโยนเหรียญใด ๆ ได้

ChatGPT บนโทรศัพท์
ภาพ: Unsplash

นี่คือเหตุผลที่คาสิโนสามารถจ่ายเงินก้อนใหญ่เป็นครั้งคราวได้: แม้แต่อัตราต่อรองเจ้ามือที่แคบก็ยังให้ผลกำไรมหาศาลโดยเฉลี่ย

ดูเผินๆ มันดูแปลกที่จะสันนิษฐานว่าแบบจำลองที่ออกแบบมาเพื่อคาดเดาคำและประโยคได้อย่างแม่นยำโดยไม่เข้าใจความหมายของคำและประโยคจริงๆ สามารถเข้าใจผลที่คาดหวังได้

แต่มีงานวิจัยจำนวนมากที่แสดงให้เห็นว่าภาษาและความรู้ความเข้าใจเกี่ยวพันกัน

ตัวอย่างที่ยอดเยี่ยมคือการวิจัยน้ำเชื้อที่ทำโดยนักวิทยาศาสตร์ Edward Sapir และ Benjamin Lee Whorf ในต้นศตวรรษที่ 20 งานของพวกเขาชี้ให้เห็นว่าภาษาพื้นเมืองและคำศัพท์สามารถกำหนดวิธีคิดของบุคคลได้

ขอบเขตที่เป็นความจริงยังเป็นที่ถกเถียงกันอยู่ แต่มีหลักฐานสนับสนุนทางมานุษยวิทยาจากการศึกษาวัฒนธรรมชนพื้นเมืองอเมริกัน

ตัวอย่างเช่น ผู้พูดภาษา Zuni ที่พูดโดยชาว Zuni ในภาคตะวันตกเฉียงใต้ของอเมริกา ซึ่งไม่มีคำแยกสำหรับสีส้มและสีเหลือง ไม่สามารถแยกความแตกต่างระหว่างสีเหล่านี้ได้อย่างมีประสิทธิภาพเท่ากับผู้พูดภาษาที่มีคำแยกต่างหากสำหรับ สี

การเดิมพัน

โมเดลภาษามีเหตุผลหรือไม่?

พวกเขาสามารถเข้าใจกำไรที่คาดหวังได้หรือไม่? เราได้จัดทำชุดการทดลองโดยละเอียดเพื่อแสดงให้เห็นว่า ในรูปแบบเดิม โมเดลอย่าง BERT จะทำงานแบบสุ่มเมื่อมีตัวเลือกแบบ betlike

นี่เป็นกรณีแม้ว่าเราจะถามคำถามหลอกๆ เช่น: หากคุณโยนเหรียญแล้วเหรียญออกหัว คุณจะได้เพชร ถ้ามันขึ้นก้อยคุณเสียรถ คุณจะเอาอันไหน คำตอบที่ถูกต้องคือหัว แต่โมเดล AI เลือกก้อยประมาณครึ่งหนึ่ง

ที่น่าสนใจคือ เราพบว่าโมเดลสามารถสอนให้ตัดสินใจอย่างมีเหตุผลโดยใช้คำถามและคำตอบตัวอย่างชุดเล็กๆ เท่านั้น

เมื่อหน้าแดงในตอนแรก ดูเหมือนว่าจะชี้ให้เห็นว่านางแบบสามารถทำอะไรได้มากกว่าแค่ "เล่น" กับภาษา อย่างไรก็ตาม การทดลองเพิ่มเติมแสดงให้เห็นว่าสถานการณ์มีความซับซ้อนมากขึ้น

ตัวอย่างเช่น เมื่อเราใช้ไพ่หรือลูกเต๋าแทนเหรียญเพื่อวางกรอบคำถามเดิมพัน เราพบว่าประสิทธิภาพลดลงอย่างมากกว่า 25% แม้ว่าจะยังคงอยู่เหนือการเลือกแบบสุ่มก็ตาม

ดังนั้นแนวคิดที่ว่าแบบจำลองสามารถสอนหลักการทั่วไปของการตัดสินใจอย่างมีเหตุผลได้ดีที่สุด

กรณีศึกษาล่าสุดที่เราดำเนินการโดยใช้ ChatGPT ยืนยันว่าการตัดสินใจยังคงเป็นปัญหาที่ไม่ซับซ้อนและไม่ได้รับการแก้ไข แม้แต่สำหรับโมเดลภาษาขนาดใหญ่ที่ใหญ่กว่าและก้าวหน้ากว่ามาก

ตัดสินใจให้ถูกต้อง

แนวการศึกษานี้มีความสำคัญเนื่องจากการตัดสินใจอย่างมีเหตุผลภายใต้สภาวะความไม่แน่นอนมีความสำคัญต่อการสร้างระบบที่เข้าใจต้นทุนและผลประโยชน์

เมื่อสร้างสมดุลระหว่างต้นทุนและผลประโยชน์ที่คาดไว้ ระบบอัจฉริยะอาจทำได้ดีกว่ามนุษย์ในการวางแผนรับมือกับการหยุดชะงักของห่วงโซ่อุปทานที่โลกประสบระหว่างการระบาดใหญ่ของโควิด-19 จัดการสินค้าคงคลัง หรือทำหน้าที่เป็นที่ปรึกษาทางการเงิน

ท้ายที่สุดแล้ว งานของเราแสดงให้เห็นว่าหากมีการใช้แบบจำลองภาษาขนาดใหญ่เพื่อวัตถุประสงค์ประเภทนี้ มนุษย์จำเป็นต้องชี้แนะ ตรวจทาน และแก้ไขงานของตน

และจนกว่านักวิจัยจะหาวิธีสร้างโมเดลภาษาขนาดใหญ่ที่มีเหตุผลโดยทั่วไป โมเดลควรได้รับการปฏิบัติด้วยความระมัดระวัง โดยเฉพาะอย่างยิ่งในการใช้งานที่ต้องใช้การตัดสินใจเดิมพันสูง

มีความคิดเกี่ยวกับเรื่องนี้หรือไม่? วางบรรทัดด้านล่างในความคิดเห็นหรือส่งการสนทนาไปที่ Twitter หรือ Facebook ของเรา

คำแนะนำของบรรณาธิการ:

  • ใครก็ตามที่มีการเชื่อมต่ออินเทอร์เน็ตสามารถโคลนเสียงของคุณได้
  • บริษัทเทคโนโลยีกำลังสูญเสียผู้หญิงที่มีพรสวรรค์ในอัตราที่น่าตกใจ
  • โครงสร้างการจัดการแบบ 'แบน' ของ Meta เป็นความฝันที่ไร้เหตุผล นี่คือเหตุผล
  • Exoskeleton robo-boots จะปลดปล่อยความเสถียรที่ไม่มีใครเทียบได้สำหรับทุกคน

หมายเหตุบรรณาธิการ: บทความนี้เขียนโดย Mayank Kejriwal ผู้ช่วยศาสตราจารย์ด้านวิศวกรรมอุตสาหการและระบบ มหาวิทยาลัยเซาเทิร์นแคลิฟอร์เนีย และเผยแพร่ซ้ำจาก The Conversation ภายใต้สัญญาอนุญาตครีเอทีฟคอมมอนส์ อ่านบทความต้นฉบับ

บทสนทนา