Il costo nascosto del machine learning: la tua privacy
Pubblicato: 2024-06-16L’apprendimento automatico ha ampliato i confini in diversi campi, tra cui la medicina personalizzata, le auto a guida autonoma e la pubblicità personalizzata.
La ricerca ha dimostrato, tuttavia, che questi sistemi memorizzano aspetti dei dati con cui sono stati addestrati per apprendere modelli, il che solleva preoccupazioni per la privacy.
Nelle statistiche e nell’apprendimento automatico, l’obiettivo è imparare dai dati passati per fare nuove previsioni o inferenze sui dati futuri.
Per raggiungere questo obiettivo, lo statistico o l’esperto di machine learning seleziona un modello per catturare i modelli sospetti nei dati.
Un modello applica una struttura semplificatrice ai dati, che consente di apprendere modelli e fare previsioni. I modelli complessi di machine learning presentano alcuni vantaggi e svantaggi intrinseci.
L’aspetto positivo è che possono apprendere modelli molto più complessi e lavorare con set di dati più ricchi per attività come il riconoscimento delle immagini e la previsione di come una persona specifica risponderà a un trattamento.
Tuttavia, corrono anche il rischio di adattarsi eccessivamente ai dati. Ciò significa che fanno previsioni accurate sui dati con cui sono stati formati, ma iniziano ad apprendere ulteriori aspetti dei dati che non sono direttamente correlati al compito da svolgere.
Ciò porta a modelli che non sono generalizzati, nel senso che hanno prestazioni scarse su nuovi dati che sono dello stesso tipo ma non esattamente uguali ai dati di training.
Sebbene esistano tecniche per affrontare l’errore predittivo associato al sovradattamento, ci sono anche problemi di privacy derivanti dalla possibilità di imparare così tanto dai dati.
Come gli algoritmi di machine learning effettuano inferenze
Ogni modello ha un certo numero di parametri. Un parametro è un elemento di un modello che può essere modificato. Ogni parametro ha un valore, o impostazione, che il modello deriva dai dati di training.
I parametri possono essere pensati come le diverse manopole che possono essere ruotate per influenzare le prestazioni dell'algoritmo.
Mentre uno schema lineare ha solo due manopole, la pendenza e l'intercetta, i modelli di machine learning hanno moltissimi parametri. Ad esempio, il modello linguistico GPT-3 ne ha 175 miliardi.
Per scegliere i parametri, i metodi di apprendimento automatico utilizzano i dati di addestramento con l'obiettivo di ridurre al minimo l'errore predittivo sui dati di addestramento.
Ad esempio, se l’obiettivo è prevedere se una persona risponderebbe bene a un determinato trattamento medico in base alla sua storia medica, il modello di apprendimento automatico farebbe previsioni sui dati in cui gli sviluppatori del modello sanno se qualcuno ha risposto bene o male.
Il modello viene premiato per le previsioni corrette e penalizzato per quelle errate, il che porta l’algoritmo a modificare i suoi parametri – ovvero a girare alcune “manopole” – e a riprovare.
Per evitare un adattamento eccessivo dei dati di addestramento, i modelli di machine learning vengono confrontati anche con un set di dati di convalida. Il set di dati di convalida è un set di dati separato che non viene utilizzato nel processo di training.
Controllando le prestazioni del modello di machine learning su questo set di dati di convalida, gli sviluppatori possono garantire che il modello sia in grado di generalizzare il proprio apprendimento oltre i dati di training, evitando l'overfitting.
Sebbene questo processo riesca a garantire buone prestazioni del modello di machine learning, non impedisce direttamente al modello di machine learning di memorizzare le informazioni nei dati di training.
Preoccupazioni relative alla privacy
A causa dell'elevato numero di parametri nei modelli di machine learning, esiste la possibilità che il metodo di machine learning memorizzi alcuni dati su cui è stato addestrato.
In realtà, questo è un fenomeno diffuso e gli utenti possono estrarre i dati memorizzati dal modello di apprendimento automatico utilizzando query su misura per ottenere i dati.
Se i dati di addestramento contengono informazioni sensibili, come dati medici o genomici, la privacy delle persone i cui dati sono stati utilizzati per addestrare il modello potrebbe essere compromessa.
Ricerche recenti hanno dimostrato che in realtà è necessario che i modelli di apprendimento automatico memorizzino aspetti dei dati di addestramento per ottenere prestazioni ottimali nella risoluzione di determinati problemi.
Ciò indica che potrebbe esserci un compromesso fondamentale tra le prestazioni di un metodo di apprendimento automatico e la privacy.
I modelli di machine learning consentono inoltre di prevedere informazioni sensibili utilizzando dati apparentemente non sensibili.
Ad esempio, Target è stata in grado di prevedere quali clienti erano probabilmente incinte analizzando le abitudini di acquisto dei clienti registrati nel registro dei bambini di Target.
Una volta addestrato il modello su questo set di dati, è stato in grado di inviare annunci relativi alla gravidanza a clienti che sospettava fossero incinte perché acquistavano articoli come integratori o lozioni senza profumazioni.
La protezione della privacy è possibile?
Sebbene siano stati proposti molti metodi per ridurre la memorizzazione nei metodi di apprendimento automatico, la maggior parte si è rivelata in gran parte inefficace.
Attualmente, la soluzione più promettente a questo problema è garantire un limite matematico al rischio per la privacy. Il metodo più moderno per la protezione formale della privacy è la privacy differenziale.
La privacy differenziale richiede che un modello di machine learning non cambi molto se i dati di un individuo vengono modificati nel set di dati di addestramento.
I metodi differenziali di privacy raggiungono questa garanzia introducendo ulteriore casualità nell’apprendimento dell’algoritmo che “copre” il contributo di ogni particolare individuo.
Una volta che un metodo è protetto con privacy differenziale, nessun possibile attacco può violare tale garanzia di privacy.
Tuttavia, anche se un modello di machine learning viene addestrato utilizzando la privacy differenziale, ciò non gli impedisce di fare inferenze sensibili come nell’esempio Target.
Per prevenire queste violazioni della privacy, tutti i dati trasmessi all’organizzazione devono essere protetti. Questo approccio è chiamato privacy differenziale locale e Apple e Google lo hanno implementato.
Poiché la privacy differenziale limita la misura in cui il modello di apprendimento automatico può dipendere dai dati di un individuo, ciò impedisce la memorizzazione.
Sfortunatamente, limita anche le prestazioni dei metodi di apprendimento automatico. A causa di questo compromesso, ci sono critiche sull’utilità della privacy differenziale, poiché spesso si traduce in un calo significativo delle prestazioni.
Andando avanti
A causa della tensione tra apprendimento inferenziale e preoccupazioni sulla privacy, c’è in definitiva una questione sociale su quale sia più importante in quali contesti.
Quando i dati non contengono informazioni sensibili, è facile consigliare di utilizzare i metodi di machine learning più potenti disponibili.
Quando si lavora con dati sensibili, tuttavia, è importante valutare le conseguenze delle fughe di privacy e potrebbe essere necessario sacrificare alcune prestazioni di apprendimento automatico per proteggere la privacy delle persone i cui dati hanno addestrato il modello.
Hai qualche idea su questo? Mandaci una riga qui sotto nei commenti o porta la discussione sul nostro Twitter o Facebook.
Raccomandazioni degli editori:
- L’intelligenza artificiale sta risolvendo un problema difficile: dare ai computer il senso dell’olfatto
- Affidarsi alle scelte dell’intelligenza artificiale può indebolire le nostre capacità decisionali
- I chatbot basati sull'intelligenza artificiale si rifiutano di produrre risultati "controversi".
- Le corse automobilistiche autonome potenziano l’intelligenza artificiale per auto senza conducente più sicure
Nota dell'editore: questo articolo è stato scritto da Jordan Awan , professore assistente di statistica alla Purdue University, e ripubblicato da The Conversation sotto una licenza Creative Commons. Leggi l'articolo originale.