ต้นทุนที่ซ่อนอยู่ของการเรียนรู้ของเครื่อง: ความเป็นส่วนตัวของคุณ

เผยแพร่แล้ว: 2024-06-16

แมชชีนเลิร์นนิงได้ขยายขอบเขตออกไปในหลายๆ ด้าน รวมถึงการแพทย์เฉพาะบุคคล รถยนต์ไร้คนขับ และโฆษณาที่ปรับแต่งตามความต้องการ

อย่างไรก็ตาม การวิจัยแสดงให้เห็นว่าระบบเหล่านี้จดจำแง่มุมต่างๆ ของข้อมูลที่ได้รับการฝึกอบรมเพื่อเรียนรู้รูปแบบ ซึ่งทำให้เกิดความกังวลเรื่องความเป็นส่วนตัว

ในสถิติและการเรียนรู้ของเครื่อง เป้าหมายคือการเรียนรู้จากข้อมูลในอดีตเพื่อคาดการณ์หรืออนุมานใหม่เกี่ยวกับข้อมูลในอนาคต

เพื่อให้บรรลุเป้าหมายนี้ นักสถิติหรือผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจะเลือกแบบจำลองเพื่อบันทึกรูปแบบที่น่าสงสัยในข้อมูล

โมเดลใช้โครงสร้างที่เรียบง่ายกับข้อมูล ซึ่งทำให้สามารถเรียนรู้รูปแบบและคาดการณ์ได้ โมเดลแมชชีนเลิร์นนิงที่ซับซ้อนมีข้อดีและข้อเสียอยู่บ้าง

ในด้านบวก พวกเขาสามารถเรียนรู้รูปแบบที่ซับซ้อนมากขึ้นและทำงานร่วมกับชุดข้อมูลที่สมบูรณ์ยิ่งขึ้นสำหรับงานต่างๆ เช่น การจดจำภาพ และการทำนายว่าบุคคลใดจะตอบสนองต่อการรักษาอย่างไร

อย่างไรก็ตาม ยังมีความเสี่ยงในการปรับข้อมูลให้พอดีเกินไปอีกด้วย ซึ่งหมายความว่าพวกเขาจะคาดการณ์ข้อมูลที่ได้รับการฝึกอบรมได้อย่างแม่นยำ แต่เริ่มเรียนรู้แง่มุมเพิ่มเติมของข้อมูลที่ไม่เกี่ยวข้องโดยตรงกับงานที่ทำอยู่

สิ่งนี้นำไปสู่โมเดลที่ไม่ได้เป็นแบบทั่วไป ซึ่งหมายความว่าโมเดลทำงานได้ไม่ดีกับข้อมูลใหม่ที่เป็นประเภทเดียวกัน แต่ไม่เหมือนกับข้อมูลการฝึกทุกประการ

แม้ว่าจะมีเทคนิคต่างๆ ในการจัดการกับข้อผิดพลาดเชิงคาดการณ์ที่เกี่ยวข้องกับการติดตั้งมากเกินไป แต่ก็ยังมีข้อกังวลด้านความเป็นส่วนตัวจากการสามารถเรียนรู้ได้มากมายจากข้อมูล

วิธีที่อัลกอริธึมการเรียนรู้ของเครื่องทำการอนุมาน

มือมนุษย์สัมผัสอินเทอร์เฟซดิจิตอลด้วยรหัสไบนารี่ AI — ภาพ: พิกซาร์

แต่ละรุ่นมีพารามิเตอร์จำนวนหนึ่ง พารามิเตอร์คือองค์ประกอบของแบบจำลองที่สามารถเปลี่ยนแปลงได้ พารามิเตอร์แต่ละตัวมีค่าหรือการตั้งค่าที่โมเดลได้มาจากข้อมูลการฝึก

พารามิเตอร์ถือได้ว่าเป็นปุ่มต่างๆ ที่สามารถหมุนเพื่อส่งผลต่อประสิทธิภาพของอัลกอริทึม

แม้ว่ารูปแบบเส้นตรงจะมีปุ่มเพียง 2 ปุ่มเท่านั้น ได้แก่ ความชันและจุดตัด แต่โมเดลการเรียนรู้ของเครื่องก็มีพารามิเตอร์มากมาย เช่น โมเดลภาษา GPT-3 มี 175 พันล้าน

ในการเลือกพารามิเตอร์ วิธีแมชชีนเลิร์นนิงจะใช้ข้อมูลการฝึกโดยมีเป้าหมายในการลดข้อผิดพลาดในการคาดการณ์ของข้อมูลการฝึกให้เหลือน้อยที่สุด

ตัวอย่างเช่น หากเป้าหมายคือการคาดเดาว่าบุคคลจะตอบสนองต่อการรักษาพยาบาลบางอย่างได้ดีหรือไม่โดยพิจารณาจากประวัติการรักษาของตน โมเดลการเรียนรู้ของเครื่องจะทำการคาดการณ์เกี่ยวกับข้อมูลที่นักพัฒนาโมเดลจะทราบว่ามีคนตอบสนองได้ดีหรือไม่ดี

แบบจำลองจะได้รับรางวัลสำหรับการคาดการณ์ที่ถูกต้องและถูกลงโทษสำหรับการคาดการณ์ที่ไม่ถูกต้อง ซึ่งทำให้อัลกอริทึมปรับพารามิเตอร์ กล่าวคือ หมุน "ปุ่ม" บางส่วน - แล้วลองอีกครั้ง

อธิบายพื้นฐานของการเรียนรู้ของเครื่อง

เพื่อหลีกเลี่ยงไม่ให้ข้อมูลการฝึกอบรมมากเกินไป โมเดลการเรียนรู้ของเครื่องจะถูกตรวจสอบกับชุดข้อมูลการตรวจสอบด้วยเช่นกัน ชุดข้อมูลการตรวจสอบเป็นชุดข้อมูลแยกต่างหากที่ไม่ได้ใช้ในกระบวนการฝึกอบรม

ด้วยการตรวจสอบประสิทธิภาพของโมเดลแมชชีนเลิร์นนิงบนชุดข้อมูลการตรวจสอบความถูกต้องนี้ นักพัฒนาสามารถมั่นใจได้ว่าโมเดลสามารถสรุปการเรียนรู้ของตนได้นอกเหนือจากข้อมูลการฝึกอบรม โดยหลีกเลี่ยงการฟิตติ้งมากเกินไป

แม้ว่ากระบวนการนี้จะประสบความสำเร็จในการรับรองประสิทธิภาพที่ดีของโมเดลการเรียนรู้ของเครื่อง แต่ไม่ได้ป้องกันโดยตรงไม่ให้โมเดลการเรียนรู้ของเครื่องจดจำข้อมูลในข้อมูลการฝึก

ข้อกังวลเรื่องความเป็นส่วนตัว

เนื่องจากมีพารามิเตอร์จำนวนมากในโมเดลแมชชีนเลิร์นนิง จึงมีโอกาสที่วิธีแมชชีนเลิร์นนิงจะจดจำข้อมูลบางส่วนที่ได้รับการฝึกมา

นี่เป็นปรากฏการณ์ที่แพร่หลาย และผู้ใช้สามารถแยกข้อมูลที่จดจำออกจากโมเดลการเรียนรู้ของเครื่องได้โดยใช้แบบสอบถามที่ปรับแต่งเพื่อรับข้อมูล

หากข้อมูลการฝึกอบรมมีข้อมูลที่ละเอียดอ่อน เช่น ข้อมูลทางการแพทย์หรือจีโนม ความเป็นส่วนตัวของผู้ที่มีข้อมูลถูกใช้ในการฝึกโมเดลอาจถูกบุกรุก

การวิจัยเมื่อเร็วๆ นี้แสดงให้เห็นว่าโมเดลการเรียนรู้ของเครื่องจำเป็นต้องจดจำแง่มุมต่างๆ ของข้อมูลการฝึกอบรม เพื่อให้ได้ประสิทธิภาพสูงสุดในการแก้ปัญหาบางอย่าง

สิ่งนี้บ่งชี้ว่าอาจมีการแลกเปลี่ยนขั้นพื้นฐานระหว่างประสิทธิภาพของวิธีการเรียนรู้ของเครื่องและความเป็นส่วนตัว

โมเดลแมชชีนเลิร์นนิงยังทำให้สามารถคาดการณ์ข้อมูลที่ละเอียดอ่อนโดยใช้ข้อมูลที่ดูเหมือนไม่ละเอียดอ่อนได้

ตัวอย่างเช่น Target สามารถคาดการณ์ได้ว่าลูกค้ารายใดมีแนวโน้มที่จะตั้งครรภ์โดยการวิเคราะห์พฤติกรรมการซื้อของลูกค้าที่ลงทะเบียนกับ Target baby register

เมื่อโมเดลได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลนี้แล้ว ก็สามารถส่งโฆษณาที่เกี่ยวข้องกับการตั้งครรภ์ให้กับลูกค้าที่สงสัยว่ากำลังตั้งครรภ์ได้ เนื่องจากพวกเขาซื้อสินค้า เช่น อาหารเสริมหรือโลชั่นไม่มีกลิ่น

การคุ้มครองความเป็นส่วนตัวเป็นไปได้หรือไม่?

วงกลมของแสงส่องสว่างท้องฟ้ายามค่ำคืนในภาพหน้าจอศิลปะของอวกาศ — ภาพ: Pexels

แม้ว่าจะมีหลายวิธีที่นำเสนอเพื่อลดการท่องจำในวิธีการเรียนรู้ของเครื่อง แต่ส่วนใหญ่กลับไม่ได้ผลมากนัก

ในปัจจุบัน วิธีแก้ปัญหาที่เป็นไปได้มากที่สุดสำหรับปัญหานี้คือ การตรวจสอบขีดจำกัดทางคณิตศาสตร์เกี่ยวกับความเสี่ยงด้านความเป็นส่วนตัว วิธีการที่ทันสมัยในการปกป้องความเป็นส่วนตัวอย่างเป็นทางการคือความเป็นส่วนตัวที่แตกต่างกัน

ความเป็นส่วนตัวที่แตกต่างกำหนดให้โมเดลการเรียนรู้ของเครื่องไม่เปลี่ยนแปลงมากนัก หากข้อมูลของบุคคลหนึ่งมีการเปลี่ยนแปลงในชุดข้อมูลการฝึกอบรม

วิธีความเป็นส่วนตัวที่แตกต่างบรรลุการรับประกันนี้โดยการแนะนำการสุ่มเพิ่มเติมในการเรียนรู้อัลกอริทึมที่ "ปกปิด" การมีส่วนร่วมของบุคคลใดบุคคลหนึ่งโดยเฉพาะ

เมื่อวิธีการได้รับการปกป้องด้วยความเป็นส่วนตัวที่แตกต่าง จะไม่มีการโจมตีใดที่จะละเมิดการรับประกันความเป็นส่วนตัวนั้นได้

แม้ว่าโมเดลแมชชีนเลิร์นนิงจะได้รับการฝึกโดยใช้ Differential Privacy แต่นั่นไม่ได้ป้องกันโมเดลดังกล่าวจากการอนุมานที่ละเอียดอ่อน เช่น ในตัวอย่าง Target

เพื่อป้องกันการละเมิดความเป็นส่วนตัว ข้อมูลทั้งหมดที่ส่งไปยังองค์กรจำเป็นต้องได้รับการปกป้อง วิธีการนี้เรียกว่า Local Differential Privacy และ Apple และ Google ได้นำแนวทางดังกล่าวไปใช้แล้ว

Differential Privacy เป็นวิธีการปกป้องความเป็นส่วนตัวของผู้คนเมื่อข้อมูลของพวกเขารวมอยู่ในชุดข้อมูลขนาดใหญ่

เนื่องจากความเป็นส่วนตัวที่แตกต่างกันจะจำกัดว่าโมเดลแมชชีนเลิร์นนิงสามารถพึ่งพาข้อมูลของบุคคลได้มากเพียงใด จึงป้องกันการท่องจำ

น่าเสียดายที่มันยังจำกัดประสิทธิภาพของวิธีการเรียนรู้ของเครื่องด้วย เนื่องจากข้อเสียนี้ จึงมีการวิพากษ์วิจารณ์ถึงประโยชน์ของ Differential Privacy เนื่องจากมักจะส่งผลให้ประสิทธิภาพลดลงอย่างมาก

ดำเนินต่อไป

เนื่องจากความตึงเครียดระหว่างการเรียนรู้เชิงอนุมานและความกังวลเรื่องความเป็นส่วนตัว ในที่สุดก็มีคำถามทางสังคมซึ่งมีความสำคัญมากกว่าในบริบทใด

เมื่อข้อมูลไม่มีข้อมูลที่ละเอียดอ่อน เป็นเรื่องง่ายที่จะแนะนำให้ใช้วิธีการเรียนรู้ของเครื่องที่ทรงพลังที่สุดที่มีอยู่

อย่างไรก็ตาม เมื่อทำงานกับข้อมูลที่ละเอียดอ่อน สิ่งสำคัญคือต้องชั่งน้ำหนักผลที่ตามมาของการรั่วไหลของความเป็นส่วนตัว และอาจจำเป็นต้องเสียสละประสิทธิภาพการเรียนรู้ของเครื่องจักรบางส่วนเพื่อปกป้องความเป็นส่วนตัวของผู้ที่มีข้อมูลฝึกโมเดล

มีความคิดเห็นเกี่ยวกับเรื่องนี้บ้างไหม? ส่งข้อความถึงเราด้านล่างในความคิดเห็นหรือดำเนินการสนทนาบน Twitter หรือ Facebook ของเรา

คำแนะนำของบรรณาธิการ:

AI กำลังไขปัญหาหนักๆ ทำให้คอมพิวเตอร์รับรู้ถึงกลิ่น
การพึ่งพาตัวเลือก AI อาจทำให้ทักษะการตัดสินใจของเราอ่อนแอลง
แชทบอท AI ปฏิเสธที่จะสร้างผลลัพธ์ที่ 'ขัดแย้ง'
การแข่งรถอัตโนมัติช่วยเพิ่ม AI สำหรับรถยนต์ไร้คนขับที่ปลอดภัยยิ่งขึ้น

หมายเหตุบรรณาธิการ: บทความนี้เขียนโดย Jordan Awan ผู้ช่วยศาสตราจารย์ด้านสถิติที่ Purdue University และเผยแพร่ซ้ำจาก The Conversation ภายใต้ใบอนุญาต Creative Commons อ่านบทความต้นฉบับ

ต้นทุนที่ซ่อนอยู่ของการเรียนรู้ของเครื่อง: ความเป็นส่วนตัวของคุณ

วิธีที่อัลกอริธึมการเรียนรู้ของเครื่องทำการอนุมาน

ข้อกังวลเรื่องความเป็นส่วนตัว

การคุ้มครองความเป็นส่วนตัวเป็นไปได้หรือไม่?

ดำเนินต่อไป

ติดตามเราบน Flipboard, Google News หรือ Apple News