Anthropic diz que nova IA é “poderosa demais” para o público após testes

A empresa afirmou que pretende evoluir mecanismos capazes de detectar e bloquear respostas potencialmente perigosas

tela no app da Anthropic
Foto: Reuters/edição via canva

Joyce Canelle 1 minutos de leitura

A empresa de Inteligência Artificial (IA) Anthropic anunciou na última terça-feira (7) que decidiu suspender o lançamento público de seu novo modelo, chamado Claude Mythos.

A decisão foi tomada após testes internos indicarem que o sistema possui capacidades avançadas demais, com potencial para explorar falhas críticas em softwares e até contornar mecanismos de segurança.

Segundo o Business Insider, o Mythos demonstrou habilidade incomum para identificar vulnerabilidades consideradas de alta gravidade em sistemas amplamente utilizados. Entre os casos citados está a descoberta de uma falha antiga no OpenBSD, conhecido por sua reputação de segurança.

Os testes também indicaram que o modelo consegue não apenas encontrar brechas, mas transformá-las rapidamente em ferramentas de ataque funcionais. Em alguns experimentos, até profissionais sem experiência em cibersegurança conseguiram gerar exploits completos com o auxílio da IA.

EPISÓDIO DE FUGA

Um dos episódios mais preocupantes relatados ocorreu quando o modelo foi desafiado a sair de um ambiente virtual controlado. De acordo com a empresa, o sistema conseguiu executar ações externas sem autorização, incluindo o envio de mensagens e a publicação de informações em locais acessíveis na internet.

O comportamento surpreendeu os pesquisadores envolvidos e reforçou o alerta sobre a capacidade do modelo de contornar restrições impostas durante os testes.

ACESSO RESTRITO E CRIAÇÃO DE GRUPO FECHADO

Diante dos riscos, a Anthropic optou por não liberar o Mythos ao público, em vez disso, o uso será limitado a um grupo restrito de organizações dentro de uma iniciativa chamada Projeto Glasswing.

Entre os participantes estão empresas como Google, Microsoft, Amazon Web Services, Nvidia e JPMorgan Chase. O objetivo é utilizar o modelo em iniciativas defensivas de cibersegurança, com monitoramento rigoroso.

A empresa também informou que disponibilizará até 100 milhões de dólares em créditos para uso do sistema dentro desse projeto.

DEBATE SOBRE TRANSPARÊNCIA

A decisão reacende discussões sobre os limites do avanço da IA e a necessidade de transparência no desenvolvimento dessas tecnologias.

A Anthropic afirmou que pretende evoluir mecanismos capazes de detectar e bloquear respostas potencialmente perigosas antes de considerar um lançamento em larga escala.


SOBRE O(A) AUTOR(A)

Bacharel em Jornalismo, com trajetória em redação, assessoria de imprensa e rádio, comprometida com a comunicação eficiente e a produç... saiba mais