Vale a pena trocar garantias de privacidade para ter IAs mais inteligentes?

Para evitar violações à privacidade, todos os dados transmitidos precisam ser protegidos

Créditos: Just_Super/ dem10/ iStock

Jordan Awan 3 minutos de leitura

O machine learning, ou aprendizado de máquina, tem avançado em diversas áreas, incluindo medicina personalizada, carros autônomos e anúncios direcionados. No entanto, pesquisas mostram que esses sistemas memorizam aspectos dos dados de treinamento para aprender padrões, o que levanta questões sobre privacidade.

O objetivo do machine learning é aprender com dados passados para fazer previsões ou inferências sobre dados futuros. Para isso, o modelo aplica uma estrutura simplificadora que permite que ele aprenda padrões e faça previsões.

Mas existem alguns prós e contras. Por um lado, eles conseguem aprender padrões muito mais complexos e trabalhar com conjuntos de dados mais ricos para tarefas como reconhecimento de imagens e previsão de respostas individuais a tratamentos.

Por outro, correm o risco de overfitting, ou seja, fazer previsões precisas para os dados de treinamento, mas também aprender outros aspectos que não estão diretamente relacionados à tarefa em questão.

Isso resulta em modelos com desempenho ruim em relação a novos dados semelhantes aos de treinamento, mas não idênticos. Embora existam técnicas para lidar com os erros de previsão associados ao overfitting, também existem preocupações com a privacidade devido à capacidade de aprender tanto com os dados.

PREOCUPAÇÕES COM A PRIVACIDADE

Devido ao grande número de parâmetros em modelos de aprendizado de máquina, há a possibilidade de que eles memorizem alguns dados de treinamento. Na verdade, isso é comum, e os usuários podem extrair esses dados memorizados do modelo usando consultas específicas.

Se os dados de treinamento contiverem informações sensíveis, como dados médicos, a privacidade pode ser comprometida. Pesquisas recentes mostram que é necessário que os modelos memorizem aspectos dos dados de treinamento para ter desempenho ideal na resolução de certos problemas. Isso sugere que, para um melhor desempenho, perde-se em privacidade.

Crédito: Freepik

Os modelos de aprendizado de máquina também permitem prever informações sensíveis usando dados aparentemente não sensíveis. A Target, por exemplo, conseguiu prever quais consumidoras estariam possivelmente grávidas analisando os hábitos de compra de clientes registradas no cadastro de bebês da loja.

Depois que o modelo foi treinado com esses dados, ele conseguiu enviar anúncios relacionados à gravidez para clientes suspeitas de estarem grávidas, com base em compras como suplementos vitamínicos ou loções sem perfume.

É POSSÍVEL PROTEGER A PRIVACIDADE?

Embora muitos métodos tenham sido propostos para reduzir a memorização no machine learning, a maioria tem sido ineficaz. Atualmente, a solução mais promissora é garantir um limite matemático para o risco à privacidade.

O método mais avançado para proteção formal é a privacidade diferencial. Ela exige que o modelo não mude muito se os dados de um indivíduo forem alterados no conjunto de dados de treinamento.

Se os dados de treinamento contiverem informações sensíveis, como dados médicos, a privacidade pode ser comprometida.

Os métodos de privacidade diferencial alcançam essa garantia introduzindo aleatoriedade adicional no algoritmo de aprendizado, “cobrindo” a contribuição de qualquer indivíduo em particular. Uma vez que um modelo é protegido dessa forma, nenhum ataque pode violar essa garantia de privacidade.

Mas, mesmo que seja treinado usando privacidade diferencial, isso não impede que ele faça inferências sensíveis, como no exemplo da Target. Para evitar essas violações à privacidade, todos os dados transmitidos para a organização precisam ser protegidos.

Como a privacidade diferencial limita a dependência do modelo em relação a dados individuais, isso impede a memorização. Mas também limita seu desempenho. Por isso, há críticas sobre a utilidade desse método, já que muitas vezes resulta em uma queda considerável no desempenho.

Ao lidar com dados sensíveis, é importante ponderar as consequências de vazamentos. Pode ser necessário sacrificar parte do desempenho para proteger a privacidade das pessoas cujos dados foram usados no treinamento do modelo.

Este artigo foi reproduzido do The Conversation sob licença Creative Commons. Leia o artigo original.


SOBRE O AUTOR

Jordan Awan é professor assistente de estatística na Universidade Purdue. saiba mais