IA da Anthropic encontra falhas críticas em softwares
Segundo a Anthropic, seu novo modelo Mythos demonstrou grande habilidade em descobrir vulnerabilidades em infraestruturas críticas de software.

A Anthropic informou esta semana que está compartilhando uma versão preliminar de seu próximo modelo de IA como parte de uma nova iniciativa de cibersegurança com um grupo de empresas de tecnologia, com o objetivo de identificar e corrigir vulnerabilidades em infraestruturas críticas de software.
Batizado de Projeto Glasswing, o esforço reúne pesos pesados como Amazon, Apple, Broadcom, Cisco, CrowdStrike, Fundação Linux, Microsoft e Palo Alto Networks.
Segundo a Anthropic, os parceiros vão utilizar o modelo para trabalhos de segurança defensiva e compartilhar os resultados com o restante da indústria. A empresa também está ampliando o acesso a cerca de 40 outras organizações responsáveis por construir ou manter infraestruturas críticas de software.
O receio de que agentes mal-intencionados possam usar modelos avançados de IA para desenvolver ataques cibernéticos mais sofisticados vem crescendo.
“O trabalho de defender a infraestrutura digital global pode levar anos; já as capacidades de IA de fronteira devem avançar consideravelmente nos próximos meses”, afirmou a Anthropic em um post no seu blog. “Para que os defensores saiam na frente, precisamos agir agora.”
A empresa está destinando até US$ 100 milhões em créditos de uso do modelo para pesquisas em segurança, além de US$ 4 milhões em doações diretas para organizações de segurança de código aberto.

A Anthropic afirma que identificou aplicações robustas em segurança no “Claude Mythos Preview” enquanto treinava o modelo em habilidades de programação e raciocínio. A expectativa é que, no futuro, usuários também tenham acesso a outros integrantes da família de modelos Mythos.
Nas últimas semanas, o modelo já identificou milhares de vulnerabilidades do tipo zero-day, muitas delas críticas. Entre as descobertas, estão um bug de 27 anos no OpenBSD, sistema operacional conhecido por seu foco em segurança, e uma falha de 16 anos em um software de vídeo amplamente utilizado que ferramentas automatizadas de teste não haviam detectado.
O receio é de que agentes mal-intencionados usem modelos avançados de IA para ataques cibernéticos.
Pesquisadores da Anthropic colocaram o modelo para trabalhar na identificação e exploração de falhas em mil repositórios de software de código aberto. A gravidade das falhas foi classificada em uma escala de um a cinco, sendo um falhas básicas e cinco o sequestro completo do fluxo de execução.
No mesmo teste, os modelos anteriores – Sonnet 4.6 e Opus 4.6 – geraram entre 150 e 175 falhas de nível 1 e cerca de 100 de nível 2, mas apenas uma de nível 3.
Já o Mythos Preview alcançou 595 falhas nos níveis 1 e 2, algumas nos níveis 3 e 4 e conseguiu executar sequestros completos de fluxo de execução (nível 5) em 10 alvos distintos, mesmo totalmente corrigidos.
Segundo a Anthropic, o modelo não foi treinado especificamente para executar esses exploits. Essa capacidade emergiu como resultado de melhorias gerais em programação, raciocínio e autonomia.
Leia mais: Evolução da IA faz crescer as preocupações com segurança e privacidade
A empresa afirmou ainda que mantém discussões contínuas com autoridades do governo dos Estados Unidos sobre as capacidades ofensivas e defensivas do modelo no campo cibernético. Para a Anthropic, a iniciativa é urgente, já que ferramentas com capacidades semelhantes devem, em breve, também estar ao alcance de agentes mal-intencionados.
A empresa esteve envolvida recentemente em um embate com o Pentágono, após se opor a termos contratuais que permitiriam o uso de sua tecnologia em vigilância doméstica e armas autônomas. O impasse levou à dissolução (ainda em curso) da parceria entre as partes.