El coste oculto del aprendizaje automático: su privacidad
Publicado: 2024-06-16El aprendizaje automático ha superado los límites en varios campos, incluida la medicina personalizada, los vehículos autónomos y la publicidad personalizada.
Sin embargo, las investigaciones han demostrado que estos sistemas memorizan aspectos de los datos con los que fueron entrenados para aprender patrones, lo que genera preocupación por la privacidad.
En estadística y aprendizaje automático, el objetivo es aprender de datos pasados para hacer nuevas predicciones o inferencias sobre datos futuros.
Para lograr este objetivo, el estadístico o experto en aprendizaje automático selecciona un modelo para capturar los patrones sospechosos en los datos.
Un modelo aplica una estructura simplificadora a los datos, lo que permite aprender patrones y hacer predicciones. Los modelos complejos de aprendizaje automático tienen algunas ventajas y desventajas inherentes.
En el lado positivo, pueden aprender patrones mucho más complejos y trabajar con conjuntos de datos más completos para tareas como el reconocimiento de imágenes y la predicción de cómo responderá una persona específica a un tratamiento.
Sin embargo, también tienen el riesgo de sobreajustarse a los datos. Esto significa que hacen predicciones precisas sobre los datos con los que fueron entrenados, pero comienzan a aprender aspectos adicionales de los datos que no están directamente relacionados con la tarea en cuestión.
Esto conduce a modelos que no están generalizados, lo que significa que funcionan mal con datos nuevos que son del mismo tipo pero no exactamente iguales que los datos de entrenamiento.
Si bien existen técnicas para abordar el error de predicción asociado con el sobreajuste, también existen preocupaciones sobre la privacidad al poder aprender tanto de los datos.
Cómo los algoritmos de aprendizaje automático hacen inferencias
Cada modelo tiene un cierto número de parámetros. Un parámetro es un elemento de un modelo que se puede cambiar. Cada parámetro tiene un valor o configuración que el modelo deriva de los datos de entrenamiento.
Los parámetros pueden considerarse como los diferentes controles que se pueden girar para afectar el rendimiento del algoritmo.
Mientras que un patrón de línea recta tiene solo dos botones, la pendiente y la intercepción, los modelos de aprendizaje automático tienen una gran cantidad de parámetros. Por ejemplo, el modelo de lenguaje GPT-3 tiene 175 mil millones.
Para elegir los parámetros, los métodos de aprendizaje automático utilizan datos de entrenamiento con el objetivo de minimizar el error predictivo en los datos de entrenamiento.
Por ejemplo, si el objetivo es predecir si una persona respondería bien a un determinado tratamiento médico en función de su historial médico, el modelo de aprendizaje automático haría predicciones sobre los datos donde los desarrolladores del modelo sabrían si alguien respondió bien o mal.
El modelo es recompensado por las predicciones correctas y penalizado por las incorrectas, lo que lleva al algoritmo a ajustar sus parámetros (es decir, girar algunas de las “perillas”) y volver a intentarlo.
Para evitar un ajuste excesivo de los datos de entrenamiento, los modelos de aprendizaje automático también se comparan con un conjunto de datos de validación. El conjunto de datos de validación es un conjunto de datos separado que no se utiliza en el proceso de capacitación.
Al verificar el rendimiento del modelo de aprendizaje automático en este conjunto de datos de validación, los desarrolladores pueden asegurarse de que el modelo pueda generalizar su aprendizaje más allá de los datos de entrenamiento, evitando el sobreajuste.
Si bien este proceso logra garantizar un buen rendimiento del modelo de aprendizaje automático, no impide directamente que el modelo de aprendizaje automático memorice información en los datos de entrenamiento.
Preocupaciones sobre la privacidad
Debido a la gran cantidad de parámetros en los modelos de aprendizaje automático, existe la posibilidad de que el método de aprendizaje automático memorice algunos datos con los que fue entrenado.
De hecho, este es un fenómeno generalizado y los usuarios pueden extraer los datos memorizados del modelo de aprendizaje automático mediante consultas diseñadas para obtener los datos.
Si los datos de entrenamiento contienen información confidencial, como datos médicos o genómicos, entonces la privacidad de las personas cuyos datos se utilizaron para entrenar el modelo podría verse comprometida.
Investigaciones recientes demostraron que en realidad es necesario que los modelos de aprendizaje automático memoricen aspectos de los datos de entrenamiento para obtener un rendimiento óptimo al resolver ciertos problemas.
Esto indica que puede haber un equilibrio fundamental entre el rendimiento de un método de aprendizaje automático y la privacidad.
Los modelos de aprendizaje automático también permiten predecir información confidencial utilizando datos aparentemente no confidenciales.
Por ejemplo, Target pudo predecir qué clientes probablemente estaban embarazadas analizando los hábitos de compra de los clientes que se registraron en el registro de bebés de Target.
Una vez que el modelo fue entrenado en este conjunto de datos, pudo enviar anuncios relacionados con el embarazo a clientes que sospechaba que estaban embarazadas porque compraron artículos como suplementos o lociones sin perfume.
¿Es posible la protección de la privacidad?
Si bien se han propuesto muchos métodos para reducir la memorización en los métodos de aprendizaje automático, la mayoría han sido en gran medida ineficaces.
Actualmente, la solución más prometedora a este problema es garantizar un límite matemático al riesgo de privacidad. El método más moderno para la protección formal de la privacidad es la privacidad diferencial.
La privacidad diferencial requiere que un modelo de aprendizaje automático no cambie mucho si los datos de un individuo cambian en el conjunto de datos de entrenamiento.
Los métodos de privacidad diferencial logran esta garantía al introducir aleatoriedad adicional en el aprendizaje del algoritmo que “encubre” la contribución de cualquier individuo en particular.
Una vez que un método está protegido con privacidad diferencial, ningún posible ataque puede violar esa garantía de privacidad.
Sin embargo, incluso si un modelo de aprendizaje automático se entrena utilizando privacidad diferencial, eso no impide que haga inferencias sensibles como en el ejemplo de Target.
Para evitar estas violaciones de la privacidad, es necesario proteger todos los datos transmitidos a la organización. Este enfoque se llama privacidad diferencial local y Apple y Google lo han implementado.
Debido a que la privacidad diferencial limita cuánto puede depender el modelo de aprendizaje automático de los datos de un individuo, esto impide la memorización.
Desafortunadamente, también limita el rendimiento de los métodos de aprendizaje automático. Debido a esta compensación, existen críticas sobre la utilidad de la privacidad diferencial, ya que a menudo resulta en una caída significativa en el rendimiento.
Avanzando
Debido a la tensión entre el aprendizaje inferencial y las preocupaciones por la privacidad, en última instancia existe una cuestión social sobre qué contexto es más importante y en qué contexto.
Cuando los datos no contienen información confidencial, es fácil recomendar el uso de los métodos de aprendizaje automático más potentes disponibles.
Sin embargo, cuando se trabaja con datos confidenciales, es importante sopesar las consecuencias de las filtraciones de privacidad y puede ser necesario sacrificar parte del rendimiento del aprendizaje automático para proteger la privacidad de las personas cuyos datos entrenaron el modelo.
¿Tiene alguna idea sobre esto? Escríbanos a continuación en los comentarios o lleve la discusión a nuestro Twitter o Facebook.
Recomendaciones de los editores:
- La IA está resolviendo un problema difícil: dotar a las computadoras del sentido del olfato
- Depender de las opciones de la IA puede debilitar nuestras habilidades para tomar decisiones
- Los chatbots de IA se niegan a producir resultados "controvertidos"
- Las carreras de autos autónomos impulsan la IA para lograr autos sin conductor más seguros
Nota del editor: este artículo fue escrito por Jordan Awan , profesor asistente de estadística en la Universidad Purdue, y republicado desde The Conversation bajo una licencia Creative Commons. Lea el artículo original.