O custo oculto do aprendizado de máquina: sua privacidade
Publicados: 2024-06-16O aprendizado de máquina ultrapassou os limites em vários campos, incluindo medicina personalizada, carros autônomos e anúncios personalizados.
A investigação demonstrou, no entanto, que estes sistemas memorizam aspectos dos dados com os quais foram treinados, a fim de aprender padrões, o que levanta preocupações em matéria de privacidade.
Em estatística e aprendizado de máquina, o objetivo é aprender com dados passados para fazer novas previsões ou inferências sobre dados futuros.
Para atingir esse objetivo, o estatístico ou especialista em aprendizado de máquina seleciona um modelo para capturar os padrões suspeitos nos dados.
Um modelo aplica uma estrutura simplificadora aos dados, o que possibilita aprender padrões e fazer previsões. Modelos complexos de aprendizado de máquina têm alguns prós e contras inerentes.
Do lado positivo, podem aprender padrões muito mais complexos e trabalhar com conjuntos de dados mais ricos para tarefas como reconhecimento de imagens e previsão de como uma pessoa específica responderá a um tratamento.
No entanto, eles também correm o risco de se ajustarem demais aos dados. Isso significa que eles fazem previsões precisas sobre os dados com os quais foram treinados, mas começam a aprender aspectos adicionais dos dados que não estão diretamente relacionados à tarefa em questão.
Isso leva a modelos que não são generalizados, o que significa que eles apresentam desempenho insatisfatório em novos dados que são do mesmo tipo, mas não exatamente iguais aos dados de treinamento.
Embora existam técnicas para lidar com o erro preditivo associado ao overfitting, também existem preocupações com a privacidade por poder aprender tanto com os dados.
Como algoritmos de aprendizado de máquina fazem inferências
Cada modelo possui um certo número de parâmetros. Um parâmetro é um elemento de um modelo que pode ser alterado. Cada parâmetro possui um valor ou configuração que o modelo deriva dos dados de treinamento.
Os parâmetros podem ser considerados como diferentes botões que podem ser girados para afetar o desempenho do algoritmo.
Embora um padrão de linha reta tenha apenas dois botões, inclinação e interceptação, os modelos de aprendizado de máquina têm muitos parâmetros. Por exemplo, o modelo de linguagem GPT-3, possui 175 bilhões.
Para escolher os parâmetros, os métodos de aprendizado de máquina utilizam dados de treinamento com o objetivo de minimizar o erro preditivo nos dados de treinamento.
Por exemplo, se o objetivo é prever se uma pessoa responderia bem a um determinado tratamento médico com base no seu histórico médico, o modelo de aprendizagem automática faria previsões sobre os dados onde os desenvolvedores do modelo saberiam se alguém respondeu bem ou mal.
O modelo é recompensado por previsões corretas e penalizado por previsões incorretas, o que leva o algoritmo a ajustar seus parâmetros – ou seja, girar alguns “botões” – e tentar novamente.
Para evitar o ajuste excessivo dos dados de treinamento, os modelos de aprendizado de máquina também são verificados em relação a um conjunto de dados de validação. O conjunto de dados de validação é um conjunto de dados separado que não é usado no processo de treinamento.
Ao verificar o desempenho do modelo de aprendizado de máquina nesse conjunto de dados de validação, os desenvolvedores podem garantir que o modelo seja capaz de generalizar seu aprendizado além dos dados de treinamento, evitando overfitting.
Embora esse processo consiga garantir um bom desempenho do modelo de aprendizado de máquina, ele não impede diretamente que o modelo de aprendizado de máquina memorize informações nos dados de treinamento.
Preocupações com a privacidade
Devido ao grande número de parâmetros nos modelos de aprendizado de máquina, existe a possibilidade de o método de aprendizado de máquina memorizar alguns dados nos quais foi treinado.
Na verdade, este é um fenômeno generalizado, e os usuários podem extrair os dados memorizados do modelo de aprendizado de máquina usando consultas personalizadas para obter os dados.
Se os dados de treinamento contiverem informações confidenciais, como dados médicos ou genômicos, a privacidade das pessoas cujos dados foram usados para treinar o modelo poderá ser comprometida.
Pesquisas recentes mostraram que é realmente necessário que os modelos de aprendizado de máquina memorizem aspectos dos dados de treinamento para obter desempenho ideal na resolução de determinados problemas.
Isto indica que pode haver um compromisso fundamental entre o desempenho de um método de aprendizagem automática e a privacidade.
Os modelos de aprendizado de máquina também possibilitam prever informações confidenciais usando dados aparentemente não confidenciais.
Por exemplo, a Target conseguiu prever quais clientes provavelmente estavam grávidas analisando os hábitos de compra dos clientes que se registraram no registro de bebês da Target.
Depois que o modelo foi treinado nesse conjunto de dados, ele foi capaz de enviar anúncios relacionados à gravidez para clientes que suspeitavam estar grávidas porque compraram itens como suplementos ou loções sem perfume.
A proteção da privacidade é mesmo possível?
Embora existam muitos métodos propostos para reduzir a memorização em métodos de aprendizado de máquina, a maioria tem sido amplamente ineficaz.
Atualmente, a solução mais promissora para este problema é garantir um limite matemático para o risco de privacidade. O método mais moderno para proteção formal da privacidade é a privacidade diferencial.
A privacidade diferencial exige que um modelo de aprendizado de máquina não mude muito se os dados de um indivíduo forem alterados no conjunto de dados de treinamento.
Os métodos de privacidade diferencial alcançam esta garantia introduzindo aleatoriedade adicional na aprendizagem do algoritmo que “encobre” a contribuição de qualquer indivíduo em particular.
Uma vez que um método é protegido com privacidade diferencial, nenhum ataque possível pode violar essa garantia de privacidade.
Mesmo que um modelo de aprendizado de máquina seja treinado usando privacidade diferencial, isso não o impede de fazer inferências confidenciais, como no exemplo do Target.
Para evitar estas violações de privacidade, todos os dados transmitidos à organização precisam ser protegidos. Essa abordagem é chamada de privacidade diferencial local, e a Apple e o Google a implementaram.
Como a privacidade diferencial limita o quanto o modelo de aprendizado de máquina pode depender dos dados de um indivíduo, isso impede a memorização.
Infelizmente, também limita o desempenho dos métodos de aprendizado de máquina. Devido a esta compensação, existem críticas sobre a utilidade da privacidade diferencial, uma vez que muitas vezes resulta numa queda significativa no desempenho.
Daqui para frente
Devido à tensão entre a aprendizagem inferencial e as preocupações com a privacidade, existe, em última análise, uma questão social sobre o que é mais importante em que contextos.
Quando os dados não contêm informações confidenciais, é fácil recomendar o uso dos métodos de aprendizado de máquina mais poderosos disponíveis.
Ao trabalhar com dados sensíveis, no entanto, é importante pesar as consequências das fugas de privacidade, e pode ser necessário sacrificar algum desempenho de aprendizagem automática para proteger a privacidade das pessoas cujos dados treinaram o modelo.
Tem alguma opinião sobre isso? Deixe-nos uma linha abaixo nos comentários ou leve a discussão para nosso Twitter ou Facebook.
Recomendações dos Editores:
- A IA está resolvendo um problema difícil – dando aos computadores o sentido do olfato
- Confiar nas escolhas da IA pode enfraquecer as nossas capacidades de tomada de decisão
- Chatbots de IA se recusam a produzir resultados ‘controversos’
- Corridas de automóveis autônomas impulsionam a IA para carros sem motorista mais seguros
Nota do Editor: Este artigo foi escrito por Jordan Awan , professor assistente de estatística na Purdue University, e republicado pela The Conversation sob uma licença Creative Commons. Leia o artigo original.