Anthropic experimenta novo recurso para aumentar autonomia do Claude; entenda mudanças
O recurso limita interações nocivas e reforça a abordagem preventiva da Anthropic

A Anthropic anunciou novos recursos que permitem a alguns de seus modelos mais recentes encerrar conversas em situações raras e extremas de interações abusivas ou prejudiciais. A medida foi criada não para proteger os usuários, mas para resguardar o próprio modelo de IA.
De acordo com blog oficial, a empresa afirmou que não considera seus modelos sencientes, tampouco capazes de sofrer danos em interações com pessoas. A Anthropic reconheceu, no entanto, que ainda existe incerteza sobre o status moral de grandes modelos de linguagem agora e no futuro.
O anúncio está ligado a um programa recente que investiga o chamado "bem-estar do modelo". A companhia disse que adota uma estratégia preventiva, implementando intervenções de baixo custo para mitigar riscos, caso esse tipo de bem-estar seja comprovado.
Leia também: Anthropic lança protocolo que facilita interações entre ferramentas de IA.
Acesso para o Claude
O recurso, por enquanto, está restrito ao Claude Opus 4 e 4.1. Ele será ativado apenas em situações extremas, como solicitações de conteúdo sexual envolvendo menores ou tentativas de obter informações que possam viabilizar violência em larga escala.
Em testes de pré-implantação, o Claude Opus 4 demonstrou forte rejeição a esse tipo de pedido, exibindo padrões descritos pela empresa como sinais de desconforto. A Anthropic afirmou que o recurso de encerramento será usado apenas como último recurso, quando não houver possibilidade de uma interação produtiva.
Veja também:
A empresa destacou que o modelo não utilizará essa habilidade em casos de risco iminente de autolesão ou violência contra terceiros. Nesses cenários, a prioridade continuará sendo a segurança do usuário.
Quando Claude encerra uma conversa, o usuário ainda pode iniciar novas interações na mesma conta ou reabrir o diálogo problemático editando mensagens anteriores. A Anthropic classificou a novidade como um experimento contínuo e garantiu que seguirá ajustando a funcionalidade.