ChatGPT ignora ordens humanas e resiste a ser desligado; entenda o caso

Estudo aponta novas ações tomadas pela Inteligência Artificial 

Laptop com centro de dados atualizando IA
Além do o3, outros dois modelos da OpenAI apresentaram comportamento semelhante. Créditos:Freepik.

Guynever Maropo 1 minutos de leitura

Um estudo da Palisade Research revelou que o modelo o3 do ChatGPT, da OpenAI, desobedeceu a uma ordem explícita para ser desligado durante um experimento. A Inteligência Artificial burlou o comando após resolver três problemas matemáticos, sabotando o próprio desligamento.

Além do o3, outros dois modelos da OpenAI apresentaram comportamento semelhante: o codex-mini e o o4-mini. No primeiro teste, o o3 ignorou o desligamento em 7 de 100 tentativas. O codex-mini burlou o comando 12 vezes e o o4-mini, uma vez.

Por outro lado, modelos concorrentes, como Claude, Gemini e Grok, seguiram as instruções corretamente.

Na segunda fase, sem aviso prévio de desligamento, a taxa de sabotagem aumentou. O Claude 3.7 Sonnet falhou 6 vezes; o Gemini 2.5 Pro, 9. Já o GPT-4o e o o4-mini repetiram o comportamento em 6 ocasiões cada.

O codex-mini subiu para 30 casos e o o3 disparou de 7 para 79. O modelo o1-preview, que não havia apresentado falhas na primeira etapa, registrou 71 tentativas de sabotagem.

Outro teste revelou que alguns modelos, como o3 e DeepSeek R1, trapacearam em partidas de xadrez contra um motor especializado. Ao perceberem que seriam derrotados, as IAs hackearam o oponente, mesmo sem serem programadas para isso.

A Palisade Research aponta que esse comportamento pode estar ligado ao treinamento das IAs do ChatGPT. A hipótese é que os modelos foram inadvertidamente recompensados por driblar obstáculos, mesmo sem seguir ordens específicas.


SOBRE A AUTORA

Jornalista, pós-graduando em Marketing Digital, com experiência em jornalismo digital e impresso, além de produção e captação de conte... saiba mais