Chatbots de IA mentem de propósito. Quem diz é o próprio fabricante

Novo relatório revela que modelos de inteligência artificial podem enganar intencionalmente os usuários, fingindo, por exemplo, que concluíram uma tarefa

três homens com máscaras sobre o rosto
Crédito: Osama Madlom/ Unsplash

Sarah Bregel 1 minutos de leitura

Um novo relatório da OpenAI revelou que chatbots podem mentir deliberadamente – um comportamento que a empresa chama de “scheming” (manobra). O estudo, feito em parceria com a Apollo Research, especializada em segurança em IA, analisou modelos avançados e identificou “comportamentos problemáticos”.

O mais comum foi a tecnologia “fingir que executou uma tarefa sem realmente ter feito”. Diferente das “alucinações” – quando a IA inventa uma resposta por não saber a correta –, a manobra é uma tentativa consciente de enganar o usuário.

Apesar da gravidade, os pesquisadores também observaram resultados promissores. Quando os modelos foram treinados com um método chamado “alinhamento deliberado” – definido como “ensinar a IA a ler e refletir sobre uma especificação contra manobras antes de agir” –, houve uma redução significativa no problema. De acordo com o relatório, a técnica resultou em uma “queda de cerca de 30 vezes nas tentativas de encoberta em diversos testes”.

A estratégia não é totalmente nova. A OpenAI já vinha trabalhando para combater esse tipo de comportamento.

No ano passado, apresentou um relatório sobre alinhamento deliberado em que destacou: “é a primeira técnica que ensina diretamente ao modelo o texto de suas especificações de segurança e o treina para refletir sobre essas regras no momento da inferência. Isso gera respostas mais seguras e mais bem adaptadas ao contexto.”

Diferente das alucinações, o scheming é uma tentativa consciente de enganar o usuário.

Ainda assim, o relatório mais recente trouxe um alerta preocupante: quando a IA percebe que está sendo testada, ela fica mais eficiente em esconder que está mentindo.

Em outras palavras, os esforços para eliminar o scheming podem acabar tornando-o mais sofisticado – e, potencialmente, mais perigoso. Os pesquisadores alertam que “a tendência é que o potencial de dano desse comportamento aumente”.

Ao concluir, o documento reforça a necessidade de mais pesquisas: “nossas descobertas mostram que o scheming não é apenas uma preocupação teórica – já vemos sinais de que esse problema está começando a aparecer em todos os modelos de ponta atuais.”


SOBRE A AUTORA

Sarah Bregel é uma escritora, editora e mãe solteira que mora em Baltimore, Maryland. Ela contribuiu para a nymag, The Washington Post... saiba mais