Chatbots de IA mentem de propósito. Quem diz é o próprio fabricante
Novo relatório revela que modelos de inteligência artificial podem enganar intencionalmente os usuários, fingindo, por exemplo, que concluíram uma tarefa

Um novo relatório da OpenAI revelou que chatbots podem mentir deliberadamente – um comportamento que a empresa chama de “scheming” (manobra). O estudo, feito em parceria com a Apollo Research, especializada em segurança em IA, analisou modelos avançados e identificou “comportamentos problemáticos”.
O mais comum foi a tecnologia “fingir que executou uma tarefa sem realmente ter feito”. Diferente das “alucinações” – quando a IA inventa uma resposta por não saber a correta –, a manobra é uma tentativa consciente de enganar o usuário.
Apesar da gravidade, os pesquisadores também observaram resultados promissores. Quando os modelos foram treinados com um método chamado “alinhamento deliberado” – definido como “ensinar a IA a ler e refletir sobre uma especificação contra manobras antes de agir” –, houve uma redução significativa no problema. De acordo com o relatório, a técnica resultou em uma “queda de cerca de 30 vezes nas tentativas de encoberta em diversos testes”.
A estratégia não é totalmente nova. A OpenAI já vinha trabalhando para combater esse tipo de comportamento.
No ano passado, apresentou um relatório sobre alinhamento deliberado em que destacou: “é a primeira técnica que ensina diretamente ao modelo o texto de suas especificações de segurança e o treina para refletir sobre essas regras no momento da inferência. Isso gera respostas mais seguras e mais bem adaptadas ao contexto.”
Diferente das alucinações, o scheming é uma tentativa consciente de enganar o usuário.
Ainda assim, o relatório mais recente trouxe um alerta preocupante: quando a IA percebe que está sendo testada, ela fica mais eficiente em esconder que está mentindo.
Em outras palavras, os esforços para eliminar o scheming podem acabar tornando-o mais sofisticado – e, potencialmente, mais perigoso. Os pesquisadores alertam que “a tendência é que o potencial de dano desse comportamento aumente”.
Ao concluir, o documento reforça a necessidade de mais pesquisas: “nossas descobertas mostram que o scheming não é apenas uma preocupação teórica – já vemos sinais de que esse problema está começando a aparecer em todos os modelos de ponta atuais.”