Makine öğreniminin gizli maliyeti: Gizliliğiniz

Yayınlanan: 2024-06-16

Makine öğrenimi, kişiselleştirilmiş tıp, sürücüsüz arabalar ve özelleştirilmiş reklamlar dahil olmak üzere birçok alanda sınırları zorladı.

Ancak araştırmalar, bu sistemlerin kalıpları öğrenmek için eğitildikleri verilerin bazı kısımlarını ezberlediklerini ve bunun da mahremiyet endişelerini artırdığını gösterdi.

İstatistik ve makine öğreniminde amaç, gelecekteki veriler hakkında yeni tahminler veya çıkarımlar yapmak için geçmiş verilerden öğrenmektir.

Bu hedefe ulaşmak için istatistikçi veya makine öğrenimi uzmanı, verilerdeki şüpheli kalıpları yakalayacak bir model seçer.

Bir model, verilere basitleştirici bir yapı uygulayarak kalıpların öğrenilmesini ve tahminlerde bulunulmasını mümkün kılar. Karmaşık makine öğrenimi modellerinin bazı doğal avantajları ve dezavantajları vardır.

Olumlu tarafı, çok daha karmaşık kalıpları öğrenebilirler ve görüntü tanıma ve belirli bir kişinin tedaviye nasıl tepki vereceğini tahmin etme gibi görevler için daha zengin veri kümeleriyle çalışabilirler.

Ancak verilere aşırı uyum sağlama riski de vardır. Bu, eğitildikleri veriler hakkında doğru tahminler yaptıkları ancak verilerin eldeki görevle doğrudan ilgili olmayan ek yönlerini öğrenmeye başladıkları anlamına gelir.

Bu, modellerin genelleştirilmemesine yol açar; bu da modellerin, eğitim verileriyle aynı türden ancak tam olarak aynı olmayan yeni veriler üzerinde düşük performans gösterdiği anlamına gelir.

Aşırı uyumla ilişkili tahmin hatasını ele alacak teknikler mevcut olsa da, verilerden bu kadar çok şey öğrenebilmenin getirdiği gizlilik endişeleri de var.

Makine öğrenimi algoritmaları nasıl çıkarımlar yapar?

İnsan eli ikili kodla dijital arayüze dokunuyor. yapay zeka
Resim: Pixabay

Her modelin belirli sayıda parametresi vardır. Parametre, bir modelin değiştirilebilen bir öğesidir. Her parametrenin, modelin eğitim verilerinden türettiği bir değeri veya ayarı vardır.

Parametreler, algoritmanın performansını etkilemek için döndürülebilen farklı düğmeler olarak düşünülebilir.

Düz çizgi deseninde eğim ve kesişme olmak üzere yalnızca iki düğme bulunurken, makine öğrenimi modellerinde çok sayıda parametre bulunur. Örneğin GPT-3 dil modeli 175 milyara sahiptir.

Parametreleri seçmek için makine öğrenimi yöntemleri, eğitim verilerindeki tahmin hatasını en aza indirmek amacıyla eğitim verilerini kullanır.

Örneğin amaç, bir kişinin tıbbi geçmişine dayanarak belirli bir tıbbi tedaviye iyi yanıt verip vermeyeceğini tahmin etmekse, makine öğrenimi modeli, model geliştiricilerinin birinin iyi mi yoksa kötü yanıt mı verdiğini bildiği veriler hakkında tahminler yapacaktır.

Model, doğru tahminler için ödüllendirilir ve yanlış tahminler için cezalandırılır; bu da algoritmanın parametrelerini ayarlamasına, yani bazı "düğmeleri" çevirip tekrar denemesine yol açar.

Makine öğreniminin temelleri açıklandı.

Eğitim verilerinin gereğinden fazla sığmasını önlemek için makine öğrenimi modelleri bir doğrulama veri kümesine göre de kontrol edilir. Doğrulama veri kümesi, eğitim sürecinde kullanılmayan ayrı bir veri kümesidir.

Geliştiriciler, makine öğrenimi modelinin performansını bu doğrulama veri kümesinde kontrol ederek, modelin öğrenmesini eğitim verilerinin ötesinde genelleştirebildiğinden ve aşırı uyumdan kaçınabildiğinden emin olabilirler.

Bu süreç, makine öğrenimi modelinin iyi performans göstermesini sağlamayı başarsa da, makine öğrenimi modelinin eğitim verilerindeki bilgileri ezberlemesine doğrudan engel olmaz.

Gizlilik endişeleri

Makine öğrenimi modellerinde çok sayıda parametre olması nedeniyle, makine öğrenimi yönteminin üzerinde eğitim aldığı bazı verileri ezberleme potansiyeli vardır.

Aslında bu yaygın bir olgudur ve kullanıcılar, verileri elde etmek için uyarlanmış sorguları kullanarak ezberlenen verileri makine öğrenimi modelinden çıkarabilirler.

Eğitim verileri tıbbi veya genomik veriler gibi hassas bilgiler içeriyorsa verileri modeli eğitmek için kullanılan kişilerin gizliliği tehlikeye girebilir.

Son araştırmalar, makine öğrenimi modellerinin, belirli sorunları çözerken en iyi performansı elde etmek için eğitim verilerinin bazı yönlerini ezberlemesinin aslında gerekli olduğunu gösterdi.

Bu, bir makine öğrenimi yönteminin performansı ile gizlilik arasında temel bir ödünleşim olabileceğini gösteriyor.

Makine öğrenimi modelleri, görünüşte hassas olmayan verileri kullanarak hassas bilgilerin tahmin edilmesini de mümkün kılar.

Örneğin Target, Target bebek kayıt sistemine kayıtlı müşterilerin satın alma alışkanlıklarını analiz ederek hangi müşterilerin hamile olma ihtimali olduğunu tahmin edebildi.

Model bu veri seti üzerinde eğitildikten sonra, takviye veya kokusuz losyon gibi ürünler satın aldıkları için hamile olduğundan şüphelendiği müşterilere hamilelikle ilgili reklamlar gönderebildi.

Gizliliğin korunması mümkün mü?

Uzayın sanatsal bir ekran görüntüsünde bir ışık çemberi gece gökyüzünü aydınlatıyor.
Resim: Pexels

Makine öğrenimi yöntemlerinde ezberlemeyi azaltmak için önerilen birçok yöntem olsa da çoğu büyük ölçüde etkisiz olmuştur.

Şu anda bu soruna en umut verici çözüm, gizlilik riskine matematiksel bir sınır getirilmesidir. Resmi mahremiyetin korunmasına yönelik en gelişmiş yöntem, diferansiyel mahremiyettir.

Diferansiyel gizlilik, eğitim veri kümesindeki bir kişinin verilerinin değişmesi durumunda makine öğrenimi modelinin fazla değişmemesini gerektirir.

Diferansiyel gizlilik yöntemleri, bu garantiyi, herhangi bir bireyin katkısını "örten" algoritma öğrenimine ek rastgelelik katarak elde eder.

Bir yöntem farklı gizlilikle korunduğunda, olası hiçbir saldırı bu gizlilik garantisini ihlal edemez.

Bir makine öğrenimi modeli diferansiyel gizlilik kullanılarak eğitilmiş olsa bile, bu onun Target örneğindeki gibi hassas çıkarımlar yapmasını engellemez.

Bu gizlilik ihlallerini önlemek için kuruluşa iletilen tüm verilerin korunması gerekmektedir. Bu yaklaşıma yerel diferansiyel gizlilik adı verilir ve Apple ve Google bunu uygulamaya koymuştur.

Diferansiyel gizlilik, verileri büyük veri kümelerine dahil edildiğinde kişilerin gizliliğini korumaya yönelik bir yöntemdir.

Diferansiyel gizlilik, makine öğrenimi modelinin bir bireyin verilerine ne kadar bağlı olabileceğini sınırladığından, bu durum ezberlemeyi engeller.

Maalesef makine öğrenimi yöntemlerinin performansını da sınırlıyor. Bu ödünleşim nedeniyle, genellikle performansta önemli bir düşüşe yol açtığı için, farklı gizliliğin yararlılığı konusunda eleştiriler vardır.

İleriye gidiyor

Çıkarımsal öğrenme ile mahremiyet kaygıları arasındaki gerilim nedeniyle sonuçta hangisinin hangi bağlamda daha önemli olduğu konusunda toplumsal bir soru ortaya çıkıyor.

Veriler hassas bilgiler içermediğinde mevcut en güçlü makine öğrenimi yöntemlerinin kullanılmasını önermek kolaydır.

Ancak hassas verilerle çalışırken gizlilik sızıntılarının sonuçlarını tartmak önemlidir ve verileri modeli eğiten kişilerin gizliliğini korumak için bazı makine öğrenimi performansından ödün vermek gerekebilir.

Bu konuda herhangi bir düşünceniz var mı? Yorumlara bize bir satır bırakın veya tartışmayı Twitter veya Facebook'umuza taşıyın.

Editörlerin Önerileri:

  • Yapay zeka zor bir sorunu çözüyor; bilgisayarlara koku alma duyusu kazandırıyor
  • Yapay Zeka seçimlerine güvenmek karar verme becerilerimizi zayıflatabilir
  • Yapay zeka sohbet robotları 'tartışmalı' çıktılar üretmeyi reddediyor
  • Otonom otomobil yarışları, daha güvenli sürücüsüz otomobiller için yapay zekayı güçlendiriyor

Editörün Notu: Bu makale Purdue Üniversitesi İstatistik Bölümünde Yardımcı Doçent olan Jordan Awan tarafından yazılmış ve Creative Commons lisansı altında The Conversation'dan yeniden yayınlanmıştır. Orijinal makaleyi okuyun.

Konuşma

Bizi Flipboard, Google Haberler veya Apple News'te takip edin