ต้นทุนที่ซ่อนอยู่ของการเรียนรู้ของเครื่อง: ความเป็นส่วนตัวของคุณ
เผยแพร่แล้ว: 2024-06-16แมชชีนเลิร์นนิงได้ขยายขอบเขตออกไปในหลายๆ ด้าน รวมถึงการแพทย์เฉพาะบุคคล รถยนต์ไร้คนขับ และโฆษณาที่ปรับแต่งตามความต้องการ
อย่างไรก็ตาม การวิจัยแสดงให้เห็นว่าระบบเหล่านี้จดจำแง่มุมต่างๆ ของข้อมูลที่ได้รับการฝึกอบรมเพื่อเรียนรู้รูปแบบ ซึ่งทำให้เกิดความกังวลเรื่องความเป็นส่วนตัว
ในสถิติและการเรียนรู้ของเครื่อง เป้าหมายคือการเรียนรู้จากข้อมูลในอดีตเพื่อคาดการณ์หรืออนุมานใหม่เกี่ยวกับข้อมูลในอนาคต
เพื่อให้บรรลุเป้าหมายนี้ นักสถิติหรือผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจะเลือกแบบจำลองเพื่อบันทึกรูปแบบที่น่าสงสัยในข้อมูล
โมเดลใช้โครงสร้างที่เรียบง่ายกับข้อมูล ซึ่งทำให้สามารถเรียนรู้รูปแบบและคาดการณ์ได้ โมเดลแมชชีนเลิร์นนิงที่ซับซ้อนมีข้อดีและข้อเสียอยู่บ้าง
ในด้านบวก พวกเขาสามารถเรียนรู้รูปแบบที่ซับซ้อนมากขึ้นและทำงานร่วมกับชุดข้อมูลที่สมบูรณ์ยิ่งขึ้นสำหรับงานต่างๆ เช่น การจดจำภาพ และการทำนายว่าบุคคลใดจะตอบสนองต่อการรักษาอย่างไร
อย่างไรก็ตาม ยังมีความเสี่ยงในการปรับข้อมูลให้พอดีเกินไปอีกด้วย ซึ่งหมายความว่าพวกเขาจะคาดการณ์ข้อมูลที่ได้รับการฝึกอบรมได้อย่างแม่นยำ แต่เริ่มเรียนรู้แง่มุมเพิ่มเติมของข้อมูลที่ไม่เกี่ยวข้องโดยตรงกับงานที่ทำอยู่
สิ่งนี้นำไปสู่โมเดลที่ไม่ได้เป็นแบบทั่วไป ซึ่งหมายความว่าโมเดลทำงานได้ไม่ดีกับข้อมูลใหม่ที่เป็นประเภทเดียวกัน แต่ไม่เหมือนกับข้อมูลการฝึกทุกประการ
แม้ว่าจะมีเทคนิคต่างๆ ในการจัดการกับข้อผิดพลาดเชิงคาดการณ์ที่เกี่ยวข้องกับการติดตั้งมากเกินไป แต่ก็ยังมีข้อกังวลด้านความเป็นส่วนตัวจากการสามารถเรียนรู้ได้มากมายจากข้อมูล
วิธีที่อัลกอริธึมการเรียนรู้ของเครื่องทำการอนุมาน
แต่ละรุ่นมีพารามิเตอร์จำนวนหนึ่ง พารามิเตอร์คือองค์ประกอบของแบบจำลองที่สามารถเปลี่ยนแปลงได้ พารามิเตอร์แต่ละตัวมีค่าหรือการตั้งค่าที่โมเดลได้มาจากข้อมูลการฝึก
พารามิเตอร์ถือได้ว่าเป็นปุ่มต่างๆ ที่สามารถหมุนเพื่อส่งผลต่อประสิทธิภาพของอัลกอริทึม
แม้ว่ารูปแบบเส้นตรงจะมีปุ่มเพียง 2 ปุ่มเท่านั้น ได้แก่ ความชันและจุดตัด แต่โมเดลการเรียนรู้ของเครื่องก็มีพารามิเตอร์มากมาย เช่น โมเดลภาษา GPT-3 มี 175 พันล้าน
ในการเลือกพารามิเตอร์ วิธีแมชชีนเลิร์นนิงจะใช้ข้อมูลการฝึกโดยมีเป้าหมายในการลดข้อผิดพลาดในการคาดการณ์ของข้อมูลการฝึกให้เหลือน้อยที่สุด
ตัวอย่างเช่น หากเป้าหมายคือการคาดเดาว่าบุคคลจะตอบสนองต่อการรักษาพยาบาลบางอย่างได้ดีหรือไม่โดยพิจารณาจากประวัติการรักษาของตน โมเดลการเรียนรู้ของเครื่องจะทำการคาดการณ์เกี่ยวกับข้อมูลที่นักพัฒนาโมเดลจะทราบว่ามีคนตอบสนองได้ดีหรือไม่ดี
แบบจำลองจะได้รับรางวัลสำหรับการคาดการณ์ที่ถูกต้องและถูกลงโทษสำหรับการคาดการณ์ที่ไม่ถูกต้อง ซึ่งทำให้อัลกอริทึมปรับพารามิเตอร์ กล่าวคือ หมุน "ปุ่ม" บางส่วน - แล้วลองอีกครั้ง
เพื่อหลีกเลี่ยงไม่ให้ข้อมูลการฝึกอบรมมากเกินไป โมเดลการเรียนรู้ของเครื่องจะถูกตรวจสอบกับชุดข้อมูลการตรวจสอบด้วยเช่นกัน ชุดข้อมูลการตรวจสอบเป็นชุดข้อมูลแยกต่างหากที่ไม่ได้ใช้ในกระบวนการฝึกอบรม
ด้วยการตรวจสอบประสิทธิภาพของโมเดลแมชชีนเลิร์นนิงบนชุดข้อมูลการตรวจสอบความถูกต้องนี้ นักพัฒนาสามารถมั่นใจได้ว่าโมเดลสามารถสรุปการเรียนรู้ของตนได้นอกเหนือจากข้อมูลการฝึกอบรม โดยหลีกเลี่ยงการฟิตติ้งมากเกินไป
แม้ว่ากระบวนการนี้จะประสบความสำเร็จในการรับรองประสิทธิภาพที่ดีของโมเดลการเรียนรู้ของเครื่อง แต่ไม่ได้ป้องกันโดยตรงไม่ให้โมเดลการเรียนรู้ของเครื่องจดจำข้อมูลในข้อมูลการฝึก
ข้อกังวลเรื่องความเป็นส่วนตัว
เนื่องจากมีพารามิเตอร์จำนวนมากในโมเดลแมชชีนเลิร์นนิง จึงมีโอกาสที่วิธีแมชชีนเลิร์นนิงจะจดจำข้อมูลบางส่วนที่ได้รับการฝึกมา
นี่เป็นปรากฏการณ์ที่แพร่หลาย และผู้ใช้สามารถแยกข้อมูลที่จดจำออกจากโมเดลการเรียนรู้ของเครื่องได้โดยใช้แบบสอบถามที่ปรับแต่งเพื่อรับข้อมูล
หากข้อมูลการฝึกอบรมมีข้อมูลที่ละเอียดอ่อน เช่น ข้อมูลทางการแพทย์หรือจีโนม ความเป็นส่วนตัวของผู้ที่มีข้อมูลถูกใช้ในการฝึกโมเดลอาจถูกบุกรุก
การวิจัยเมื่อเร็วๆ นี้แสดงให้เห็นว่าโมเดลการเรียนรู้ของเครื่องจำเป็นต้องจดจำแง่มุมต่างๆ ของข้อมูลการฝึกอบรม เพื่อให้ได้ประสิทธิภาพสูงสุดในการแก้ปัญหาบางอย่าง
สิ่งนี้บ่งชี้ว่าอาจมีการแลกเปลี่ยนขั้นพื้นฐานระหว่างประสิทธิภาพของวิธีการเรียนรู้ของเครื่องและความเป็นส่วนตัว
โมเดลแมชชีนเลิร์นนิงยังทำให้สามารถคาดการณ์ข้อมูลที่ละเอียดอ่อนโดยใช้ข้อมูลที่ดูเหมือนไม่ละเอียดอ่อนได้
ตัวอย่างเช่น Target สามารถคาดการณ์ได้ว่าลูกค้ารายใดมีแนวโน้มที่จะตั้งครรภ์โดยการวิเคราะห์พฤติกรรมการซื้อของลูกค้าที่ลงทะเบียนกับ Target baby register
เมื่อโมเดลได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลนี้แล้ว ก็สามารถส่งโฆษณาที่เกี่ยวข้องกับการตั้งครรภ์ให้กับลูกค้าที่สงสัยว่ากำลังตั้งครรภ์ได้ เนื่องจากพวกเขาซื้อสินค้า เช่น อาหารเสริมหรือโลชั่นไม่มีกลิ่น
การคุ้มครองความเป็นส่วนตัวเป็นไปได้หรือไม่?
แม้ว่าจะมีหลายวิธีที่นำเสนอเพื่อลดการท่องจำในวิธีการเรียนรู้ของเครื่อง แต่ส่วนใหญ่กลับไม่ได้ผลมากนัก
ในปัจจุบัน วิธีแก้ปัญหาที่เป็นไปได้มากที่สุดสำหรับปัญหานี้คือ การตรวจสอบขีดจำกัดทางคณิตศาสตร์เกี่ยวกับความเสี่ยงด้านความเป็นส่วนตัว วิธีการที่ทันสมัยในการปกป้องความเป็นส่วนตัวอย่างเป็นทางการคือความเป็นส่วนตัวที่แตกต่างกัน
ความเป็นส่วนตัวที่แตกต่างกำหนดให้โมเดลการเรียนรู้ของเครื่องไม่เปลี่ยนแปลงมากนัก หากข้อมูลของบุคคลหนึ่งมีการเปลี่ยนแปลงในชุดข้อมูลการฝึกอบรม
วิธีความเป็นส่วนตัวที่แตกต่างบรรลุการรับประกันนี้โดยการแนะนำการสุ่มเพิ่มเติมในการเรียนรู้อัลกอริทึมที่ "ปกปิด" การมีส่วนร่วมของบุคคลใดบุคคลหนึ่งโดยเฉพาะ
เมื่อวิธีการได้รับการปกป้องด้วยความเป็นส่วนตัวที่แตกต่าง จะไม่มีการโจมตีใดที่จะละเมิดการรับประกันความเป็นส่วนตัวนั้นได้
แม้ว่าโมเดลแมชชีนเลิร์นนิงจะได้รับการฝึกโดยใช้ Differential Privacy แต่นั่นไม่ได้ป้องกันโมเดลดังกล่าวจากการอนุมานที่ละเอียดอ่อน เช่น ในตัวอย่าง Target
เพื่อป้องกันการละเมิดความเป็นส่วนตัว ข้อมูลทั้งหมดที่ส่งไปยังองค์กรจำเป็นต้องได้รับการปกป้อง วิธีการนี้เรียกว่า Local Differential Privacy และ Apple และ Google ได้นำแนวทางดังกล่าวไปใช้แล้ว
เนื่องจากความเป็นส่วนตัวที่แตกต่างกันจะจำกัดว่าโมเดลแมชชีนเลิร์นนิงสามารถพึ่งพาข้อมูลของบุคคลได้มากเพียงใด จึงป้องกันการท่องจำ
น่าเสียดายที่มันยังจำกัดประสิทธิภาพของวิธีการเรียนรู้ของเครื่องด้วย เนื่องจากข้อเสียนี้ จึงมีการวิพากษ์วิจารณ์ถึงประโยชน์ของ Differential Privacy เนื่องจากมักจะส่งผลให้ประสิทธิภาพลดลงอย่างมาก
ดำเนินต่อไป
เนื่องจากความตึงเครียดระหว่างการเรียนรู้เชิงอนุมานและความกังวลเรื่องความเป็นส่วนตัว ในที่สุดก็มีคำถามทางสังคมซึ่งมีความสำคัญมากกว่าในบริบทใด
เมื่อข้อมูลไม่มีข้อมูลที่ละเอียดอ่อน เป็นเรื่องง่ายที่จะแนะนำให้ใช้วิธีการเรียนรู้ของเครื่องที่ทรงพลังที่สุดที่มีอยู่
อย่างไรก็ตาม เมื่อทำงานกับข้อมูลที่ละเอียดอ่อน สิ่งสำคัญคือต้องชั่งน้ำหนักผลที่ตามมาของการรั่วไหลของความเป็นส่วนตัว และอาจจำเป็นต้องเสียสละประสิทธิภาพการเรียนรู้ของเครื่องจักรบางส่วนเพื่อปกป้องความเป็นส่วนตัวของผู้ที่มีข้อมูลฝึกโมเดล
มีความคิดเห็นเกี่ยวกับเรื่องนี้บ้างไหม? ส่งข้อความถึงเราด้านล่างในความคิดเห็นหรือดำเนินการสนทนาบน Twitter หรือ Facebook ของเรา
คำแนะนำของบรรณาธิการ:
- AI กำลังไขปัญหาหนักๆ ทำให้คอมพิวเตอร์รับรู้ถึงกลิ่น
- การพึ่งพาตัวเลือก AI อาจทำให้ทักษะการตัดสินใจของเราอ่อนแอลง
- แชทบอท AI ปฏิเสธที่จะสร้างผลลัพธ์ที่ 'ขัดแย้ง'
- การแข่งรถอัตโนมัติช่วยเพิ่ม AI สำหรับรถยนต์ไร้คนขับที่ปลอดภัยยิ่งขึ้น
หมายเหตุบรรณาธิการ: บทความนี้เขียนโดย Jordan Awan ผู้ช่วยศาสตราจารย์ด้านสถิติที่ Purdue University และเผยแพร่ซ้ำจาก The Conversation ภายใต้ใบอนุญาต Creative Commons อ่านบทความต้นฉบับ