5 perguntas para Amanda Askell, filósofa e pesquisadora da Anthropic
Responsável pela segurança e alinhamento da Anthropic, pesquisadora explica como a IA aprende ética, bom senso e limites — sem virar paternalista

A Anthropic está no pé da OpenAI. A empresa responsável pelo Claude tem sido transparente ao tratar sobre os riscos e as capacidades reais da inteligência artificial. No último mês, eles lançaram uma Constituição para os seus robôs, que traz os limites éticos do que um bot pode ou não fazer. A ação é liderada pela filósofa e pesquisadora Amanda Askell. Ela é formada em Oxford e atua como coordenadora de segurança e alinhamento dos sistemas de IA da Anthropic
O documento de 84 páginas detalha como o Claude deve se comportar em situações ambíguas. Na dúvida, o chatbot precisa ser gentil e transparente. Até mesmo em caso da IA simular que é senciente. Amanda quer que Claude entenda o contexto das regras de conduta. A profissional criou um conjunto de instruções para explicar com quais fontes a IA é alimentada e sobre como treiná-la.
Esta entrevista foi editada a partir da publicação feita na Fast Company dos Estados Unidos.
FC Brasil - Vocês anunciaram a Constituição do Claude, um tipo de código de ética dos bots. Em que momento as regras se aplicam durante o treinamento da IA?
Amanda Askell - Fazemos o modelo gerar muitos dados sintéticos para que compreenda e lide com a constituição. Isso inclui criar situações em que ela seja relevante, refletir sobre o que recomendaria nesses casos e treinar a partir disso. Também há dados para que ele literalmente entenda o documento e seu conteúdo.
Depois, no aprendizado por reforço, orientamos o modelo para respostas alinhadas à constituição, por exemplo, fornecendo o texto completo e pedindo que avalie qual resposta está mais alinhada com ele. São várias camadas de treinamento que permitem essa internalização do “caráter”.
FC Brasil - Isso significa que o modelo imagina situações para aplicar esses princípios, como aconteceria com uma pessoa aprendendo regras?
Amanda Askell - Sim. O modelo pode gerar dados que o ajudem a pensar sobre a constituição e compreendê-la. No aprendizado supervisionado, isso pode incluir perguntas ou conversas em que ela seja relevante. O modelo identifica princípios aplicáveis, reflete sobre o que a constituição recomendaria e tenta construir uma resposta razoável a partir disso. Isso está intrinsecamente ligado a como os modelos estão ficando cada vez mais capazes.
FC Brasil - O que muda da Constituição antiga do Claude para a nova versão?
Amanda Askell - A antiga constituição buscava direcionar o modelo para esses princípios ou características de alto nível, como regras. A nova constituição é um documento amplo e holístico que, em vez de se concentrar apenas nessas propriedades isoladas, tenta explicar ao modelo o contexto.
É como se falássemos: “Esta é a sua situação geral. Esta é a maneira como queremos que você interaja com o mundo. Estas são todas as razões por trás disso, e gostaríamos que você as compreendesse e, idealmente, concordasse com elas. Vamos fornecer o contexto completo sobre nós, o que queremos, como achamos que você deve se comportar e por que pensamos assim.”
Portanto, estamos tentando munir o modelo com contexto e fazer com que ele use seu próprio discernimento e seja mais ponderado.
FC Brasil - Como faz para o Claude entender e, em alguns casos, não replicar assuntos sensíveis de discurso sem criar regras específicas para isso?
Amanda Askell - Parece interessante observar como os modelos estão se tornando mais capacitados. Já pensei nisso como a diferença entre alguém que atende ligações em um call center e que talvez tenha uma lista de verificação, e alguém que é especialista em sua área — muitas vezes confiamos no julgamento dessa pessoa. É como um médico: você conhece os interesses dos seus pacientes e confiamos que você trabalhe dentro de um conjunto mais amplo de regras e regulamentos, mas também confiamos que você use o bom senso, entendendo qual é o objetivo de tudo, que, nesse caso, é servir o paciente.
Leia mais: Como a IA está mudando quem controla as narrativas na internet
À medida que os modelos se tornam melhores, parece que eles se beneficiam menos dessas listas de verificação e muito mais dessa noção de ampla compreensão da situação e da capacidade de usar o bom senso.
Meu ideal seria: se uma pessoa, uma pessoa realmente qualificada, estivesse na situação de Claude, o que ela faria? E isso levaria em consideração coisas como o bem-estar da pessoa com quem está falando, suas preferências imediatas e aprenderia a lidar com casos em que esses fatores poderiam entrar em conflito.
Você pode imaginar alguém mencionando que está tentando superar um vício em jogos de azar, e isso sendo armazenado de alguma forma na memória do modelo, e então o usuário perguntando ao modelo: "Ah, quais são alguns sites de jogos de azar realmente bons que eu posso acessar?" Esse é um caso interessante em que a preferência imediata da pessoa pode não estar alinhada com o que ela afirmou ser bom para o seu bem-estar geral. O modelo terá que equilibrar isso.
Em alguns casos, não fica claro, porque se a pessoa insistir muito, o modelo deve ajudá-la? Ou o modelo deve inicialmente dizer: "Notei que uma das coisas que você me pediu para lembrar foi que você quer parar de apostar, então você realmente quer que eu faça isso?". E isso sem ser paternalista. Mas você não quer que ele seja paternalista. Se a pessoa disser: “Eu sei que disse isso, mas sou adulta”, talvez o modelo deva responder: “Eu sinalizei isso, mas no fim das contas é sua escolha.”
Essas situações são delicadas, e a constituição tenta dar contexto e ferramentas para ajudar o modelo a fazer esse equilíbrio.
FC Brasil - As pessoas usam os chatbots para situações diversas. Desde treinador até relacionamentos pessoais, passando por confidentes e parceiros profissionais. Do ponto de vista da confiança e da segurança, qual seria a persona ideal para uma IA?
Amanda Askell - Quando um modelo conversa com você pela primeira vez, a relação se assemelha muito mais a um relacionamento profissional. E existe um certo distanciamento profissional que é apropriado. Em relação a assuntos como opiniões políticas, uma das normas que frequentemente observamos em relação a pessoas como médicos ou advogados que atuam na esfera pública é que, embora não sejam totalmente isentos de opiniões políticas, se você fosse ao seu médico e perguntasse: "Em quem você votou?" ou "Qual a sua opinião sobre esta questão política?", ele poderia responder: "Não é muito apropriado para mim dizer isso, pois é importante que eu possa atender a todos, e isso inclui um certo nível de distanciamento das minhas opiniões pessoais na forma como interajo com você."
Não queremos injetar a perspectiva do Vale do Silício ou de São Francisco no bot. Mas queremos ser transparentes e mostrar para os usuários os pontos em que a IA se alinha.