機器學習的隱性成本:您的隱私
已發表: 2024-06-16機器學習突破了多個領域的界限,包括個人化醫療、自動駕駛汽車和客製化廣告。
然而,研究表明,這些系統會記住訓練資料的各個方面,以便學習模式,這引發了對隱私的擔憂。
在統計學和機器學習中,目標是從過去的數據中學習,以便對未來的數據做出新的預測或推論。
為了實現這一目標,統計學家或機器學習專家選擇一個模型來捕捉數據中的可疑模式。
模型對資料應用簡化的結構,這使得學習模式和做出預測成為可能。 複雜的機器學習模型有一些固有的優點和缺點。
從積極的一面來看,他們可以學習更複雜的模式,並使用更豐富的數據集來完成圖像識別和預測特定人對治療的反應等任務。
然而,它們也存在過度擬合數據的風險。 這意味著他們可以對接受訓練的數據做出準確的預測,但開始學習與手頭任務不直接相關的數據的其他方面。
這導致模型不通用,這意味著它們在與訓練資料類型相同但不完全相同的新資料上表現不佳。
雖然有一些技術可以解決與過度擬合相關的預測錯誤,但從數據中學習大量資訊也存在隱私問題。
機器學習演算法如何進行推理
每個模型都有一定數量的參數。 參數是模型中可以更改的元素。 每個參數都有一個值或設置,該值或設置是模型從訓練資料中得出的。
參數可以被認為是可以轉動以影響演算法性能的不同旋鈕。
雖然直線模式只有斜率和截距兩個旋鈕,但機器學習模型卻有許多參數。 例如語言模型GPT-3,有1750億。
為了選擇參數,機器學習方法使用訓練數據,目標是最小化訓練數據的預測誤差。
例如,如果目標是根據一個人的病史來預測一個人是否會對某種醫療治療反應良好,那麼機器學習模型將對數據進行預測,模型開發人員知道某人的反應是好還是差。
該模型會因正確的預測而受到獎勵,並因錯誤的預測而受到懲罰,這會導致演算法調整其參數(即轉動一些“旋鈕”)並重試。
為了避免訓練資料過度擬合,機器學習模型也會根據驗證資料集進行檢查。 驗證資料集是一個單獨的資料集,不在訓練過程中使用。
透過檢查機器學習模型在此驗證資料集上的效能,開發人員可以確保模型能夠將其學習推廣到訓練資料之外,從而避免過度擬合。
雖然這個過程成功地確保了機器學習模型的良好性能,但它並沒有直接阻止機器學習模型記住訓練資料中的資訊。
隱私問題
由於機器學習模型中有大量參數,機器學習方法有可能會記住一些受過訓練的資料。
事實上,這是一種普遍存在的現象,使用者可以透過使用為獲取資料而自訂的查詢來從機器學習模型中提取記憶的資料。
如果訓練數據包含敏感資訊,例如醫學或基因組數據,那麼使用其數據來訓練模型的人員的隱私可能會受到損害。
最近的研究表明,機器學習模型實際上有必要記住訓練資料的各個方面,以獲得解決某些問題的最佳性能。
這表明機器學習方法的性能和隱私之間可能存在根本性的權衡。
機器學習模型還可以使用看似不敏感的數據來預測敏感資訊。
例如,Target 能夠透過分析在 Target 嬰兒登記處註冊的客戶的購買習慣來預測哪些客戶可能懷孕。
一旦模型接受了該資料集的訓練,它就能夠向懷疑懷孕的顧客發送與懷孕相關的廣告,因為他們購買了補充劑或無味乳液等商品。
隱私保護還有可能嗎?
儘管已經提出了許多減少機器學習方法中的記憶的方法,但大多數基本上都無效。
目前,解決這個問題最有希望的解決方案是確保隱私風險的數學限制。 形式隱私保護的最先進方法是差分隱私。
差異隱私要求如果訓練資料集中一個人的資料發生變化,機器學習模型不會發生太大變化。
差分隱私方法透過在演算法學習中引入額外的隨機性來「掩蓋」任何特定個體的貢獻來實現這種保證。
一旦一種方法受到差分隱私的保護,任何可能的攻擊都不會違反該隱私保證。
然而,即使機器學習模型是使用差異隱私進行訓練的,但這並不能阻止它做出敏感的推論,例如 Target 範例中的情況。
為了防止這些隱私侵犯,傳輸到組織的所有資料都需要受到保護。 這種方法稱為本地差分隱私,蘋果和谷歌都已經實現了。
由於差異隱私限制了機器學習模型對個人資料的依賴程度,這會阻礙記憶。
不幸的是,它也限制了機器學習方法的性能。 由於這種權衡,差分隱私的實用性受到了批評,因為它通常會導致效能顯著下降。
向前走
由於推理學習和隱私問題之間的緊張關係,最終存在一個社會問題:在哪種情況下哪種更重要。
當資料不包含敏感資訊時,很容易推薦使用最強大的機器學習方法。
然而,在處理敏感資料時,權衡隱私外洩的後果非常重要,並且可能有必要犧牲一些機器學習效能,以保護使用資料訓練模型的人員的隱私。
對此有什麼想法嗎? 請在下面的評論中給我們留言,或將討論轉移到我們的 Twitter 或 Facebook。
編輯推薦:
- 人工智慧正在解決一個難題——賦予電腦嗅覺
- 依賴人工智慧的選擇可能會削弱我們的決策能力
- 人工智慧聊天機器人拒絕產生「有爭議的」輸出
- 自動賽車增強人工智慧,打造更安全的無人駕駛汽車
編者註:本文由普渡大學統計學助理教授 Jordan Awan 撰寫,並根據知識共享許可從 The Conversation 重新發布。 閱讀原文。