Anthropic experimenta novo recurso para aumentar autonomia do Claude; entenda mudanças

O recurso limita interações nocivas e reforça a abordagem preventiva da Anthropic

Robô e humano conversando
A empresa destacou que o modelo não utilizará essa habilidade em casos de risco iminente de autolesão ou violência contra terceiros. Créditos:Freepik.

Guynever Maropo 1 minutos de leitura

A Anthropic anunciou novos recursos que permitem a alguns de seus modelos mais recentes encerrar conversas em situações raras e extremas de interações abusivas ou prejudiciais. A medida foi criada não para proteger os usuários, mas para resguardar o próprio modelo de IA.

De acordo com blog oficial, a empresa afirmou que não considera seus modelos sencientes, tampouco capazes de sofrer danos em interações com pessoas. A Anthropic reconheceu, no entanto, que ainda existe incerteza sobre o status moral de grandes modelos de linguagem agora e no futuro.

O anúncio está ligado a um programa recente que investiga o chamado "bem-estar do modelo". A companhia disse que adota uma estratégia preventiva, implementando intervenções de baixo custo para mitigar riscos, caso esse tipo de bem-estar seja comprovado.

Leia também: Anthropic lança protocolo que facilita interações entre ferramentas de IA.

Acesso para o Claude

O recurso, por enquanto, está restrito ao Claude Opus 4 e 4.1. Ele será ativado apenas em situações extremas, como solicitações de conteúdo sexual envolvendo menores ou tentativas de obter informações que possam viabilizar violência em larga escala.

Em testes de pré-implantação, o Claude Opus 4 demonstrou forte rejeição a esse tipo de pedido, exibindo padrões descritos pela empresa como sinais de desconforto. A Anthropic afirmou que o recurso de encerramento será usado apenas como último recurso, quando não houver possibilidade de uma interação produtiva.

Veja também:

A empresa destacou que o modelo não utilizará essa habilidade em casos de risco iminente de autolesão ou violência contra terceiros. Nesses cenários, a prioridade continuará sendo a segurança do usuário.

Quando Claude encerra uma conversa, o usuário ainda pode iniciar novas interações na mesma conta ou reabrir o diálogo problemático editando mensagens anteriores. A Anthropic classificou a novidade como um experimento contínuo e garantiu que seguirá ajustando a funcionalidade.


SOBRE A AUTORA

Jornalista, pós-graduando em Marketing Digital, com experiência em jornalismo digital e impresso, além de produção e captação de conte... saiba mais