Le coût caché du machine learning : votre vie privée
Publié: 2024-06-16L’apprentissage automatique a repoussé les limites dans plusieurs domaines, notamment la médecine personnalisée, les voitures autonomes et les publicités personnalisées.
Des recherches ont cependant montré que ces systèmes mémorisent certains aspects des données avec lesquelles ils ont été formés afin d'apprendre des modèles, ce qui soulève des inquiétudes en matière de confidentialité.
En statistiques et en apprentissage automatique, l’objectif est d’apprendre des données passées pour faire de nouvelles prédictions ou inférences sur les données futures.
Afin d'atteindre cet objectif, le statisticien ou l'expert en apprentissage automatique sélectionne un modèle pour capturer les modèles suspectés dans les données.
Un modèle applique une structure simplificatrice aux données, ce qui permet d'apprendre des modèles et de faire des prédictions. Les modèles complexes d’apprentissage automatique présentent des avantages et des inconvénients inhérents.
Du côté positif, ils peuvent apprendre des modèles beaucoup plus complexes et travailler avec des ensembles de données plus riches pour des tâches telles que la reconnaissance d’images et la prédiction de la réaction d’une personne spécifique à un traitement.
Cependant, ils présentent également le risque de surajuster les données. Cela signifie qu'ils font des prédictions précises sur les données avec lesquelles ils ont été formés, mais commencent à apprendre des aspects supplémentaires des données qui ne sont pas directement liés à la tâche à accomplir.
Cela conduit à des modèles qui ne sont pas généralisés, ce qui signifie qu'ils fonctionnent mal sur de nouvelles données du même type mais pas exactement identiques aux données d'entraînement.
Bien qu'il existe des techniques pour remédier à l'erreur prédictive associée au surapprentissage, la possibilité d'apprendre autant de choses à partir des données pose également des problèmes de confidentialité.
Comment les algorithmes d'apprentissage automatique font des inférences
Chaque modèle possède un certain nombre de paramètres. Un paramètre est un élément d'un modèle qui peut être modifié. Chaque paramètre a une valeur, ou un paramètre, que le modèle dérive des données d'entraînement.
Les paramètres peuvent être considérés comme les différents boutons qui peuvent être tournés pour affecter les performances de l'algorithme.
Alors qu'un modèle en ligne droite ne comporte que deux boutons, la pente et l'interception, les modèles d'apprentissage automatique comportent un grand nombre de paramètres. Par exemple, le modèle de langage GPT-3 en compte 175 milliards.
Afin de choisir les paramètres, les méthodes d'apprentissage automatique utilisent des données d'entraînement dans le but de minimiser l'erreur prédictive sur les données d'entraînement.
Par exemple, si l'objectif est de prédire si une personne répondrait bien à un certain traitement médical en fonction de ses antécédents médicaux, le modèle d'apprentissage automatique ferait des prédictions sur les données grâce auxquelles les développeurs du modèle sauraient si une personne a bien ou mal répondu.
Le modèle est récompensé pour les prédictions correctes et pénalisé pour les prédictions incorrectes, ce qui amène l’algorithme à ajuster ses paramètres – c’est-à-dire à tourner certains « boutons » – et à réessayer.
Pour éviter le surajustement des données d'entraînement, les modèles d'apprentissage automatique sont également comparés à un ensemble de données de validation. L'ensemble de données de validation est un ensemble de données distinct qui n'est pas utilisé dans le processus de formation.
En vérifiant les performances du modèle d'apprentissage automatique sur cet ensemble de données de validation, les développeurs peuvent s'assurer que le modèle est capable de généraliser son apprentissage au-delà des données d'entraînement, en évitant le surajustement.
Bien que ce processus réussisse à garantir de bonnes performances du modèle d'apprentissage automatique, il n'empêche pas directement le modèle d'apprentissage automatique de mémoriser les informations contenues dans les données d'entraînement.
Problèmes de confidentialité
En raison du grand nombre de paramètres dans les modèles d’apprentissage automatique, il est possible que la méthode d’apprentissage automatique mémorise certaines données sur lesquelles elle a été entraînée.
En fait, il s'agit d'un phénomène répandu et les utilisateurs peuvent extraire les données mémorisées du modèle d'apprentissage automatique en utilisant des requêtes adaptées pour obtenir les données.
Si les données d'entraînement contiennent des informations sensibles, telles que des données médicales ou génomiques, la vie privée des personnes dont les données ont été utilisées pour entraîner le modèle pourrait être compromise.
Des recherches récentes ont montré qu'il est en fait nécessaire que les modèles d'apprentissage automatique mémorisent certains aspects des données d'entraînement afin d'obtenir des performances optimales pour résoudre certains problèmes.
Cela indique qu’il peut y avoir un compromis fondamental entre les performances d’une méthode d’apprentissage automatique et la confidentialité.
Les modèles d’apprentissage automatique permettent également de prédire des informations sensibles à l’aide de données apparemment non sensibles.
Par exemple, Target a pu prédire quelles clientes étaient susceptibles d'être enceintes en analysant les habitudes d'achat des clientes inscrites au registre des bébés de Target.
Une fois que le modèle a été formé sur cet ensemble de données, il a pu envoyer des publicités liées à la grossesse aux clientes qu'il soupçonnait d'être enceintes parce qu'elles achetaient des articles tels que des suppléments ou des lotions non parfumées.
La protection de la vie privée est-elle même possible ?
Bien que de nombreuses méthodes aient été proposées pour réduire la mémorisation dans les méthodes d’apprentissage automatique, la plupart se sont révélées largement inefficaces.
Actuellement, la solution la plus prometteuse à ce problème consiste à garantir une limite mathématique au risque lié à la vie privée. La méthode de pointe en matière de protection formelle de la vie privée est la confidentialité différentielle.
La confidentialité différentielle exige qu'un modèle d'apprentissage automatique ne change pas beaucoup si les données d'un individu sont modifiées dans l'ensemble de données d'entraînement.
Les méthodes de confidentialité différentielles obtiennent cette garantie en introduisant un caractère aléatoire supplémentaire dans l’apprentissage de l’algorithme qui « dissimule » la contribution d’un individu particulier.
Une fois qu’une méthode est protégée par une confidentialité différentielle, aucune attaque éventuelle ne peut violer cette garantie de confidentialité.
Même si un modèle d’apprentissage automatique est formé à l’aide de la confidentialité différentielle, cela ne l’empêche pas de faire des inférences sensibles comme dans l’exemple Target.
Pour éviter ces violations de la vie privée, toutes les données transmises à l'organisation doivent être protégées. Cette approche est appelée confidentialité différentielle locale, et Apple et Google l'ont mise en œuvre.
Étant donné que la confidentialité différentielle limite la mesure dans laquelle le modèle d'apprentissage automatique peut dépendre des données d'un individu, cela empêche la mémorisation.
Malheureusement, cela limite également les performances des méthodes d’apprentissage automatique. En raison de ce compromis, l’utilité de la confidentialité différentielle est critiquée, car elle entraîne souvent une baisse significative des performances.
Aller de l'avant
En raison de la tension entre l’apprentissage inférentiel et les préoccupations en matière de vie privée, se pose en fin de compte la question sociétale de savoir lequel est le plus important et dans quels contextes.
Lorsque les données ne contiennent pas d’informations sensibles, il est facile de recommander d’utiliser les méthodes d’apprentissage automatique les plus puissantes disponibles.
Cependant, lorsque vous travaillez avec des données sensibles, il est important de peser les conséquences des fuites de confidentialité, et il peut être nécessaire de sacrifier certaines performances d'apprentissage automatique afin de protéger la confidentialité des personnes dont les données ont entraîné le modèle.
Avez-vous des idées à ce sujet ? Écrivez-nous ci-dessous dans les commentaires ou portez la discussion sur notre Twitter ou Facebook.
Recommandations des rédacteurs :
- L’IA résout un problème difficile : donner aux ordinateurs un odorat
- S'appuyer sur les choix de l'IA peut affaiblir nos capacités décisionnelles
- Les chatbots IA refusent de produire des résultats « controversés »
- La course automobile autonome renforce l’IA pour des voitures sans conducteur plus sûres
Note de l'éditeur : cet article a été rédigé par Jordan Awan , professeur adjoint de statistiques à l'Université Purdue, et republié à partir de The Conversation sous licence Creative Commons. Lisez l'article original.