5 perguntas para Amanda Askell, filósofa e pesquisadora da Anthropic

Responsável pela segurança e alinhamento da Anthropic, pesquisadora explica como a IA aprende ética, bom senso e limites — sem virar paternalista

5 perguntas para Amanda Askell, filósofa e pesquisadora da Anthropic
(Divulgação/Anthropic)

Mark Sullivan 6 minutos de leitura

A Anthropic está no pé da OpenAI. A empresa responsável pelo Claude tem sido transparente ao tratar sobre os riscos e as capacidades reais da inteligência artificial. No último mês, eles lançaram uma Constituição para os seus robôs, que traz os limites éticos do que um bot pode ou não fazer. A ação é liderada pela filósofa e pesquisadora Amanda Askell. Ela é formada em Oxford e atua como coordenadora de segurança e alinhamento dos sistemas de IA da Anthropic

O documento de 84 páginas detalha como o Claude deve se comportar em situações ambíguas. Na dúvida, o chatbot precisa ser gentil e transparente. Até mesmo em caso da IA simular que é senciente. Amanda quer que Claude entenda o contexto das regras de conduta. A profissional criou um conjunto de instruções para explicar com quais fontes a IA é alimentada e sobre como treiná-la. 

Esta entrevista foi editada a partir da publicação feita na Fast Company dos Estados Unidos. 

FC Brasil - Vocês anunciaram a Constituição do Claude, um tipo de código de ética dos bots. Em que momento as regras se aplicam durante o treinamento da IA?

Amanda Askell - Fazemos o modelo gerar muitos dados sintéticos para que compreenda e lide com a constituição. Isso inclui criar situações em que ela seja relevante, refletir sobre o que recomendaria nesses casos e treinar a partir disso. Também há dados para que ele literalmente entenda o documento e seu conteúdo.

Depois, no aprendizado por reforço, orientamos o modelo para respostas alinhadas à constituição, por exemplo, fornecendo o texto completo e pedindo que avalie qual resposta está mais alinhada com ele. São várias camadas de treinamento que permitem essa internalização do “caráter”.

FC Brasil - Isso significa que o modelo imagina situações para aplicar esses princípios, como aconteceria com uma pessoa aprendendo regras?

Amanda Askell - Sim. O modelo pode gerar dados que o ajudem a pensar sobre a constituição e compreendê-la. No aprendizado supervisionado, isso pode incluir perguntas ou conversas em que ela seja relevante. O modelo identifica princípios aplicáveis, reflete sobre o que a constituição recomendaria e tenta construir uma resposta razoável a partir disso. Isso está intrinsecamente ligado a como os modelos estão ficando cada vez mais capazes. 

FC Brasil - O que muda da Constituição antiga do Claude para a nova versão?

Amanda Askell -  A antiga constituição buscava direcionar o modelo para esses princípios ou características de alto nível, como regras. A nova constituição é um documento amplo e holístico que, em vez de se concentrar apenas nessas propriedades isoladas, tenta explicar ao modelo o contexto.

É como se falássemos: “Esta é a sua situação geral. Esta é a maneira como queremos que você interaja com o mundo. Estas são todas as razões por trás disso, e gostaríamos que você as compreendesse e, idealmente, concordasse com elas. Vamos fornecer o contexto completo sobre nós, o que queremos, como achamos que você deve se comportar e por que pensamos assim.”

Portanto, estamos tentando munir o modelo com contexto e fazer com que ele use seu próprio discernimento e seja mais ponderado.

FC Brasil - Como faz para o Claude entender e, em alguns casos, não replicar assuntos sensíveis de discurso sem criar regras específicas para isso?

Amanda Askell -  Parece interessante observar como os modelos estão se tornando mais capacitados. Já pensei nisso como a diferença entre alguém que atende ligações em um call center e que talvez tenha uma lista de verificação, e alguém que é especialista em sua área — muitas vezes confiamos no julgamento dessa pessoa. É como um médico: você conhece os interesses dos seus pacientes e confiamos que você trabalhe dentro de um conjunto mais amplo de regras e regulamentos, mas também confiamos que você use o bom senso, entendendo qual é o objetivo de tudo, que, nesse caso, é servir o paciente.

Leia mais: Como a IA está mudando quem controla as narrativas na internet

À medida que os modelos se tornam melhores, parece que eles se beneficiam menos dessas listas de verificação e muito mais dessa noção de ampla compreensão da situação e da capacidade de usar o bom senso.

Meu ideal seria: se uma pessoa, uma pessoa realmente qualificada, estivesse na situação de Claude, o que ela faria? E isso levaria em consideração coisas como o bem-estar da pessoa com quem está falando, suas preferências imediatas e aprenderia a lidar com casos em que esses fatores poderiam entrar em conflito.

Você pode imaginar alguém mencionando que está tentando superar um vício em jogos de azar, e isso sendo armazenado de alguma forma na memória do modelo, e então o usuário perguntando ao modelo: "Ah, quais são alguns sites de jogos de azar realmente bons que eu posso acessar?" Esse é um caso interessante em que a preferência imediata da pessoa pode não estar alinhada com o que ela afirmou ser bom para o seu bem-estar geral. O modelo terá que equilibrar isso.

Em alguns casos, não fica claro, porque se a pessoa insistir muito, o modelo deve ajudá-la? Ou o modelo deve inicialmente dizer: "Notei que uma das coisas que você me pediu para lembrar foi que você quer parar de apostar, então você realmente quer que eu faça isso?". E isso sem ser paternalista. Mas você não quer que ele seja paternalista. Se a pessoa disser: “Eu sei que disse isso, mas sou adulta”, talvez o modelo deva responder: “Eu sinalizei isso, mas no fim das contas é sua escolha.”

Essas situações são delicadas, e a constituição tenta dar contexto e ferramentas para ajudar o modelo a fazer esse equilíbrio.

FC Brasil - As pessoas usam os chatbots para situações diversas. Desde treinador até relacionamentos pessoais, passando por confidentes e parceiros profissionais. Do ponto de vista da confiança e da segurança, qual seria a persona ideal para uma IA?

Amanda Askell -  Quando um modelo conversa com você pela primeira vez, a relação se assemelha muito mais a um relacionamento profissional. E existe um certo distanciamento profissional que é apropriado. Em relação a assuntos como opiniões políticas, uma das normas que frequentemente observamos em relação a pessoas como médicos ou advogados que atuam na esfera pública é que, embora não sejam totalmente isentos de opiniões políticas, se você fosse ao seu médico e perguntasse: "Em quem você votou?" ou "Qual a sua opinião sobre esta questão política?", ele poderia responder: "Não é muito apropriado para mim dizer isso, pois é importante que eu possa atender a todos, e isso inclui um certo nível de distanciamento das minhas opiniões pessoais na forma como interajo com você."

Não queremos injetar a perspectiva do Vale do Silício ou de São Francisco no bot. Mas queremos ser transparentes e mostrar para os usuários os pontos em que a IA se alinha. 


SOBRE O AUTOR

Mark Sullivan é redator sênior da Fast Company e escreve sobre tecnologia emergente, política, inteligência artificial, grandes empres... saiba mais