Biaya tersembunyi dari pembelajaran mesin: Privasi Anda

Diterbitkan: 2024-06-16

Pembelajaran mesin telah mendobrak batasan di beberapa bidang, termasuk pengobatan yang dipersonalisasi, mobil tanpa pengemudi, dan iklan yang disesuaikan.

Namun penelitian telah menunjukkan bahwa sistem ini mengingat aspek data yang dilatih untuk mempelajari pola, sehingga menimbulkan kekhawatiran terhadap privasi.

Dalam statistik dan pembelajaran mesin, tujuannya adalah belajar dari data masa lalu untuk membuat prediksi atau kesimpulan baru tentang data masa depan.

Untuk mencapai tujuan ini, ahli statistik atau pakar pembelajaran mesin memilih model untuk menangkap pola yang dicurigai dalam data.

Sebuah model menerapkan struktur penyederhanaan pada data, yang memungkinkan untuk mempelajari pola dan membuat prediksi. Model pembelajaran mesin yang kompleks memiliki beberapa kelebihan dan kekurangan.

Sisi positifnya, mereka dapat mempelajari pola yang jauh lebih kompleks dan bekerja dengan kumpulan data yang lebih kaya untuk tugas-tugas seperti pengenalan gambar dan memprediksi bagaimana orang tertentu akan merespons suatu pengobatan.

Namun, mereka juga memiliki risiko melakukan overfitting pada data. Artinya, mereka membuat prediksi akurat tentang data yang dilatih, namun mulai mempelajari aspek tambahan dari data yang tidak terkait langsung dengan tugas yang ada.

Hal ini menyebabkan model tidak digeneralisasikan, artinya model tersebut memiliki performa yang buruk pada data baru yang berjenis sama tetapi tidak persis sama dengan data pelatihan.

Meskipun ada teknik untuk mengatasi kesalahan prediksi yang terkait dengan overfitting, ada juga masalah privasi karena bisa belajar banyak dari data.

Bagaimana algoritma pembelajaran mesin membuat kesimpulan

Antarmuka digital menyentuh tangan manusia dengan kode biner. AI
Gambar: Pixabay

Setiap model memiliki sejumlah parameter tertentu. Parameter adalah elemen model yang dapat diubah. Setiap parameter memiliki nilai, atau pengaturan, yang diperoleh model dari data pelatihan.

Parameter dapat dianggap sebagai berbagai tombol yang dapat diputar untuk mempengaruhi kinerja algoritma.

Meskipun pola garis lurus hanya memiliki dua tombol, kemiringan dan intersep, model pembelajaran mesin memiliki banyak sekali parameter. Misalnya model bahasa GPT-3, memiliki 175 miliar.

Untuk memilih parameter, metode pembelajaran mesin menggunakan data pelatihan dengan tujuan meminimalkan kesalahan prediksi pada data pelatihan.

Misalnya, jika tujuannya adalah untuk memprediksi apakah seseorang akan merespons dengan baik terhadap perawatan medis tertentu berdasarkan riwayat kesehatannya, model pembelajaran mesin akan membuat prediksi tentang data yang memungkinkan pengembang model mengetahui apakah seseorang merespons dengan baik atau buruk.

Model diberi penghargaan atas prediksi yang benar dan diberi penalti atas prediksi yang salah, sehingga algoritme akan menyesuaikan parameternya – yaitu, memutar beberapa “kenop” – dan mencoba lagi.

Dasar-dasar pembelajaran mesin dijelaskan.

Untuk menghindari overfitting pada data pelatihan, model pembelajaran mesin juga diperiksa berdasarkan kumpulan data validasi. Dataset validasi merupakan dataset terpisah yang tidak digunakan dalam proses pelatihan.

Dengan memeriksa performa model pembelajaran mesin pada kumpulan data validasi ini, pengembang dapat memastikan bahwa model tersebut mampu menggeneralisasi pembelajarannya di luar data pelatihan, sehingga menghindari overfitting.

Meskipun proses ini berhasil memastikan performa model pembelajaran mesin yang baik, proses ini tidak secara langsung mencegah model pembelajaran mesin mengingat informasi dalam data pelatihan.

Masalah privasi

Karena banyaknya parameter dalam model pembelajaran mesin, terdapat potensi metode pembelajaran mesin mengingat beberapa data yang dilatihnya.

Faktanya, ini adalah fenomena yang tersebar luas, dan pengguna dapat mengekstrak data yang diingat dari model pembelajaran mesin dengan menggunakan kueri yang disesuaikan untuk mendapatkan data tersebut.

Jika data pelatihan berisi informasi sensitif, seperti data medis atau genom, privasi orang yang datanya digunakan untuk melatih model dapat dikompromikan.

Penelitian terbaru menunjukkan bahwa model pembelajaran mesin sebenarnya perlu menghafal aspek data pelatihan untuk mendapatkan performa optimal dalam memecahkan masalah tertentu.

Hal ini menunjukkan bahwa mungkin ada trade-off mendasar antara kinerja metode pembelajaran mesin dan privasi.

Model pembelajaran mesin juga memungkinkan untuk memprediksi informasi sensitif menggunakan data yang tampaknya tidak sensitif.

Misalnya, Target dapat memprediksi pelanggan mana yang kemungkinan besar hamil dengan menganalisis kebiasaan pembelian pelanggan yang terdaftar di registrasi bayi Target.

Setelah model dilatih menggunakan kumpulan data ini, model tersebut dapat mengirimkan iklan terkait kehamilan kepada pelanggan yang diduga hamil karena mereka membeli barang seperti suplemen atau losion tanpa pewangi.

Apakah perlindungan privasi mungkin dilakukan?

Lingkaran cahaya menerangi langit malam dalam tangkapan layar artistik luar angkasa.
Gambar: Pexels

Meskipun ada banyak metode yang diusulkan untuk mengurangi hafalan dalam metode pembelajaran mesin, sebagian besar tidak efektif.

Saat ini, solusi paling menjanjikan untuk masalah ini adalah memastikan batasan matematis terhadap risiko privasi. Metode mutakhir untuk perlindungan privasi formal adalah privasi diferensial.

Privasi diferensial mengharuskan model pembelajaran mesin tidak banyak berubah jika data satu individu diubah dalam kumpulan data pelatihan.

Metode privasi diferensial mencapai jaminan ini dengan memasukkan keacakan tambahan ke dalam pembelajaran algoritme yang “menutupi” kontribusi individu tertentu.

Setelah suatu metode dilindungi dengan privasi diferensial, tidak ada kemungkinan serangan yang dapat melanggar jaminan privasi tersebut.

Meskipun model pembelajaran mesin dilatih menggunakan privasi diferensial, hal itu tidak mencegah model tersebut membuat kesimpulan sensitif seperti pada contoh Target.

Untuk mencegah pelanggaran privasi ini, semua data yang dikirimkan ke organisasi perlu dilindungi. Pendekatan ini disebut privasi diferensial lokal, dan Apple serta Google telah menerapkannya.

Privasi diferensial adalah metode untuk melindungi privasi orang ketika data mereka dimasukkan dalam kumpulan data yang besar.

Karena privasi diferensial membatasi seberapa besar model pembelajaran mesin dapat bergantung pada data satu individu, hal ini mencegah penghafalan.

Sayangnya, hal ini juga membatasi kinerja metode pembelajaran mesin. Karena trade-off ini, terdapat kritik terhadap kegunaan privasi diferensial, karena sering kali mengakibatkan penurunan kinerja yang signifikan.

Maju

Karena ketegangan antara pembelajaran inferensial dan masalah privasi, pada akhirnya timbul pertanyaan di masyarakat tentang mana yang lebih penting dalam konteks apa.

Jika data tidak berisi informasi sensitif, mudah untuk merekomendasikan penggunaan metode pembelajaran mesin paling canggih yang tersedia.

Namun, ketika bekerja dengan data sensitif, penting untuk mempertimbangkan konsekuensi kebocoran privasi, dan mungkin perlu mengorbankan beberapa kinerja pembelajaran mesin untuk melindungi privasi orang-orang yang datanya melatih model tersebut.

Punya pemikiran mengenai hal ini? Kirimi kami baris di bawah di komentar, atau bawa diskusi ke Twitter atau Facebook kami.

Rekomendasi Editor:

  • AI memecahkan masalah yang sulit – memberi komputer indra penciuman
  • Mengandalkan pilihan AI dapat melemahkan keterampilan kita dalam mengambil keputusan
  • Chatbot AI menolak menghasilkan keluaran yang 'kontroversial'
  • Balap mobil otonom meningkatkan AI untuk mobil tanpa pengemudi yang lebih aman

Catatan Editor: Artikel ini ditulis oleh Jordan Awan , Asisten Profesor Statistika di Universitas Purdue, dan diterbitkan ulang dari The Conversation di bawah lisensi Creative Commons. Baca artikel aslinya.

Percakapan

Ikuti kami di Flipboard, Google Berita, atau Apple News