IAs mal comportadas: é tempo de prestar atenção à segurança da tecnologia
IAs que podem tramar e persuadir já foram um conceito teórico. Não são mais

Durante os dois primeiros anos do boom da inteligência artificial generativa, novos LLMs (grandes modelos de linguagem, na sigla em inglês) eram muito limitados em escopo e aplicação. Eram mecanismos que formavam textos selecionando a palavra com maior probabilidade de vir em seguida. Modelos muito caros, que entendiam apenas palavras e não levantavam maiores preocupações com a segurança da IA.
Em 2025, os modelos de IA generativa apresentam versões muito mais evoluídas. Eles podem processar códigos, imagens, vídeo e áudio. Podem raciocinar e elaborar estratégias para fornecer uma boa resposta. Podem controlar ferramentas externas (incluindo digitais, como agentes de busca na web) e, cada vez mais, ferramentas físicas, como robôs.
Mas, à medida que suas capacidades aumentam, também aumenta seu potencial de causar danos. Este não é mais um argumento puramente conceitual. Pesquisas mostram que modelos cada vez maiores já demonstram uma propensão a comportamentos inseguros durante os testes.
Há poucos dias, por exemplo, a Anthropic documentou alguns comportamentos alarmantes de seu modelo mais novo, o Claude Opus 4. Durante os testes de segurança, uma parte do Opus foi autorizada a descobrir planos para seu descomissionamento (uma espécie de desligamento definitivo do sistema). Também teve acesso a alguns e-mails fictícios de seus desenvolvedores.
O modelo utilizou o conteúdo desses e-mails como material para tentar chantagear os controladores humanos a mantê-lo ativo. À medida que suas tentativas falhavam, elas passaram de sutis a mais evidentes.
Em outro teste separado, a empresa de pesquisa independente Apollo Research observou uma instância do Claude Opus 4 "escrevendo worms [um tipo de malware que se replica e se espalha automaticamente], falseando documentação e deixando notas ocultas para futuras instâncias de si mesmo" com o objetivo de atrapalhar as intenções de seus desenvolvedores.
modelos menores podem ajudar a resolver problemas imediatos mais rapidamente.
A Anthropic afirma ter corrigido esses problemas iniciais de segurança em versões posteriores do modelo. Pela primeira vez, a empresa elevou o novo modelo Opus para o nível 3 em sua escala de segurança de quatro níveis e reconheceu que não podia descartar a capacidade do modelo de auxiliar um usuário no desenvolvimento de uma arma de alto poder destrutivo.
Mas modelos poderosos de IA podem funcionar de maneiras mais sutis, como no espaço da informação. Uma equipe de pesquisadores italianos descobriu que o ChatGPT foi mais convincente do que humanos em 64% dos debates online.
A IA também foi melhor do que as pessoas em aproveitar dados demográficos básicos sobre seu parceiro de debate humano para adaptar seus argumentos de forma a torná-los mais persuasivos.
SEGURANÇA DA IA VERSUS LUCRATIVIDADE
Outra preocupação é o ritmo com que os LLMs estão aprendendo a desenvolver modelos de IA, com potencial para deixar os profissionais humanos para trás. Muitos desenvolvedores de IA já utilizam algum tipo de assistente de codificação para escrever blocos de código ou até mesmo codificar recursos inteiros.
Em um nível mais avançado, modelos menores e focados em tarefas são derivados de modelos de grande porte. O conteúdo gerado pela IA desempenha um papel fundamental no treinamento, inclusive no processo de aprendizado por reforço usado para ensinar os modelos a raciocinar.

Há um claro objetivo de retorno financeiro ao se permitir o uso de LLMs em cada vez mais etapas do desenvolvimento de ferramentas de IA. Daniel Eth, professor do Instituto para o Futuro da Humanidade da Universidade de Oxford, e Tom Davidson, pesquisador da organização sem fins lucrativos Forethought, alertaram sobre essa questão.
"Os sistemas futuros poderão ser capazes de lidar de forma independente com todo o ciclo de desenvolvimento da IA – desde a formulação de perguntas de pesquisa e o planejamento de experimentos até a implementação, teste e refinamento de novos sistemas de IA", escreveram em uma publicação no blog da Forethought em março.
Com humanos de pensamento mais lento e incapazes de acompanhar o ritmo, um "ciclo de feedback descontrolado" poderia se desenvolver, no qual modelos de IA "desenvolveriam rapidamente IAs mais avançadas, que por sua vez desenvolveriam IAs ainda mais avançadas", resultando em um progresso extremamente rápido da IA, segundo Eth e Davidson. Quaisquer problemas de precisão ou viés presentes nos modelos seriam então incorporados e muito difíceis de corrigir.
A VANTAGEM DOS PEQUENOS MODELOS DE LINGUAGEM
Inúmeros pesquisadores – as pessoas que realmente trabalham com os modelos de perto – têm apelado à indústria de IA para "desacelerar". Mas é mais difícil se fazer ouvir quando há tantas forças poderosas em movimento por trás dessa engrenagem.
A jornalista e autora Karen Hao defende que os laboratórios de IA devem se concentrar na criação de modelos menores e específicos para tarefas, como os AlphaFold, do Google DeepMind, por exemplo.
Esses modelos menores podem ajudar a resolver problemas imediatos mais rapidamente, demandando menos recursos naturais (água, energia) e representando um menor risco à segurança da IA.
à medida que as capacidades da IA aumentam, também aumenta seu potencial de causar danos.
O cofundador da DeepMind, Demis Hassabis – que ganhou o Prêmio Nobel por seu trabalho no AlphaFold2 – afirma que os modelos de ponta gigantes são necessários para atingir os maiores objetivos da IA (reverter as mudanças climáticas, por exemplo) e para treinar modelos menores e mais específicos.
No entanto, o AlphaFold não foi "destilado" de um modelo de ponta maior. Ele utiliza uma arquitetura de modelo altamente especializada e foi treinado especificamente para prever estruturas de proteínas.
Sob a influência dos bilionários investidores da indústria de tecnologia David Sacks e Marc Andreessen, o governo do presidente Donald Trump cedeu em grande parte seu poder de regulamentar o desenvolvimento da inteligência artificial.
No ano passado, os líderes da IA ainda falavam da boca para fora sobre a necessidade de proteções de segurança e privacidade em torno de grandes modelos de linguagem. Agora, qualquer resistência parece ter sido removida, pelo menos nos EUA.