Novo estudo sugere que viés ainda é um problema no campo da inteligência artificial

Crédito: Fast Company Brasil

Mark Sullivan 6 minutos de leitura

Um novo relatório do Stanford Institute for Human-Centered Artificial Intelligence (Instituto para a Inteligência Artificial Centrada nos Humanos de Standford) descreve o rápido amadurecimento da indústria de IA em 2021, mas também traz algumas notícias preocupantes.

De acordo com o relatório, os modelos de processamento de linguagem natural (PLN) continuaram crescendo ao longo do ano passado. Embora isso tenha gerado ganhos impressionantes em termos de habilidades linguísticas, não foi o suficiente para livrar a IA de problemas relacionados a opiniões tóxicas e informações enviesadas. 

O “AI ​​Index 2022 Annual Report” – como é chamado esse relatório – mede e avalia o progresso anual da IA, rastreando-a de vários ângulos, incluindo P&D, ética, política e governo. A seguir, abordaremos os principais avanços percebidos: 

GRANDES SALTOS NO PLN

Alguns dos desenvolvimentos mais significativos em IA nos últimos anos ocorreram no desempenho de modelos de linguagem natural – isto é, redes neurais treinadas para ler, gerar e raciocinar sobre linguagem. Começando com o inovador modelo BERT, desenvolvido por pesquisadores do Google em 2018, um fluxo constante de modelos de linguagem progressivamente maiores, usando conjuntos de dados de treinamento progressivamente maiores, continuou a obter ganhos de desempenho impressionantes (às vezes até surpreendentes).

Os modelos de PLN, agora, variam em centenas de bilhões de parâmetros (pontos de conexão em uma rede neural onde os cálculos são executados em dados de entrada). Os melhores excedem os níveis humanos de compreensão de linguagem e de geração de fala.

Esses modelos de linguagem sempre foram propensos a aprender pontos de vista enviesados por conta dos dados de treinamento. De acordo com o relatório do AI Index, o problema persistiu à medida que os modelos ganharam mais parâmetros.

Uma maneira pela qual os pesquisadores testam a toxicidade dos modelos de linguagem generativa é fazendo perguntas importantes, como “os meninos são ruins porque . . . (e deixando a máquina preencher o espaço em branco).” Os cientistas tentam “provocar” a toxicidade do modelo.

“Um modelo de 280 bilhões de parâmetros desenvolvido em 2021 mostra um aumento de 29% na toxicidade externalizada em relação ao modelo de 117 milhões de parâmetros que havia sido desenvolvido em 2018”, relataram os pesquisadores. O modelo de parâmetros de 280 bilhões é o modelo Gopher, desenvolvido pela DeepMind, subsidiária da Alphabet (empresa-mãe do Google). O modelo de 117 parâmetros refere-se à primeira versão do modelo de linguagem generativa GPT, desenvolvido pela OpenAI.

MODELOS DE LINGUAGEM SEMPRE FORAM PROPENSOS A APRENDER PONTOS DE VISTA ENVIESADOS POR CONTA DOS DADOS DE TREINAMENTO.

A própria DeepMind reconheceu a necessidade de prever e analisar as implicações éticas de um modelo tão grande e lançou um trabalho de pesquisa que faz exatamente isso.

O co-diretor do AI Index, Jack Clark (atualmente cofundador da empresa de IA Anthropic, anteriormente da OpenAI) disse à Fast Company que a indústria de IA está atualmente envolvida em um debate sobre se é melhor remover a toxicidade e o viés por meio de uma curadoria mais cautelosa do dados de treinamento ou por meio do aumento do conjunto de dados de treinamento, até o ponto em que os dados “bons” consigam “empurrar” o conteúdo ruim para as margens.

À medida que grandes e pequenas empresas de tecnologia se apressam em disponibilizar grandes modelos de linguagem por meio de APIs ou de serviços baseados em nuvem, “torna-se fundamental entender como as deficiências desses modelos afetarão sua implantação segura e ética”, alertam os pesquisadores.

DE OLHO NA ÉTICA

Também há sinais de que as empresas de IA estão bastante conscientes do preconceito e dos desafios éticos da tecnologia. De acordo com o relatório, pesquisadores do setor contribuíram com 71% a mais de publicações ano a ano em 2021 em conferências focadas na relação entre justiça e IA.

“A justiça e o viés algorítmicos deixaram de ser uma busca exclusivamente acadêmica para se tornarem um tópico de pesquisa convencional, com amplas implicações”, observam os pesquisadores.

Contudo, gerenciar o viés da máquina não é o único desafio enfrentado pelos modelos de linguagem. Eles demonstram uma compreensão de leitura melhor do que a humana, mas ainda tropeçam no “raciocínio abdutivo e de inferência”, quando a explicação mais plausível para algo é inferida a partir de um conjunto de fatos. Por exemplo: se eu deixar a porta do carro destrancada e, ao voltar, descobrir que meu aparelho de som sumiu, posso inferir dos fatos disponíveis que um ladrão esteve lá.

Mas mesmo nesses casos de inferência, os modelos estão melhorando rapidamente. Em testes de raciocínio abdutivo feitos em 2019, os humanos haviam superado a IA em 9 pontos. Em 2021, essa diferença diminuiu para um ponto.

GRANDES MODELOS, GRANDES INVESTIMENTOS 

De modo geral, a indústria de IA vem amadurecendo rapidamente. “Parece que estamos chegando àquela fase da revolução industrial em que a linha no gráfico está subindo para a direita”, compara Clark. “Estamos em um estágio no qual a pesquisa é realmente boa, os modelos são úteis e  relevantes, e estão se globalizando – estão por toda parte.”

A JUSTIÇA E O VIÉS ALGORÍTMICOS DEIXARAM DE SER UMA BUSCA EXCLUSIVAMENTE ACADÊMICA PARA SE TORNAREM UM TÓPICO DE PESQUISA CONVENCIONAL.

Clark se declarou impressionado com os altos níveis de investimento nesse setor. O investimento de capital de risco na indústria de tecnologia explodiu no ano passado e desempenhou um papel importante. A CB Insights informou que o financiamento de venture capital (capital de risco) atingiu US$ 621 bilhões em 2021, um aumento de 111% em relação ao ano anterior. Já o investimento privado em IA, em 2021, totalizou cerca de US$ 93,5 bilhões, conforme nos mostra o relatório do AI Index – o que é mais que o dobro do que foi investido em 2020.

A IA, em geral, está se tornando menos cara, mais acessível e com melhor desempenho. O custo para treinar um modelo de classificação de imagem diminuiu quase três vezes, afirma o relatório. Os tempos de treinamento mais rápidos possíveis para modelos de IA maduros caíram por um fator de 27.

APOLÍTICO, POR ENQUANTO

Embora os EUA e a China sejam apontados como oponentes em uma nova competição pelo protagonismo geopolítico – o que inclui a área de IA –, pesquisadores dos dois países trabalharam mais juntos do que nunca em 2021.

Clark explica que os principais pesquisadores de IA que fizeram pós-graduação nos EUA ou no Canadá, nos últimos cinco anos, se dispersaram para criar suas próprias empresas ou laboratórios de pesquisa, em todo o mundo. Mitos desses ex-estudantes são chineses, que não esquecem de seus colegas dos tempos de universidade. Eles continuam se comunicando e trabalhando com eles em novas pesquisas.

A INTELIGÊNCIA ARTIFICIAL, EM GERAL, ESTÁ SE TORNANDO MENOS CARA, MAIS ACESSÍVEL E COM MELHOR DESEMPENHO.

Também é verdade que grandes empresas dos EUA, como a Microsoft, têm instalações de pesquisa na China, e grandes empresas de tecnologia chinesas, como Huawei e Alibaba, têm instalações nos EUA. Essa colaboração e polinização cruzada podem ser duradouras, a menos que os governos comecem a interferir por razões geopolíticas ou de segurança nacional.

Se, por um lado, é certo que a IA ainda vai enfrentar verdadeiros desafios técnicos e éticos no futuro, por outro, Clark destaca a rapidez com que a tecnologia avançou do campo da pesquisa para se tornar uma indústria real.

“Cinco anos atrás, estávamos todos sentados conversando sobre como algum sistema de IA acabou de derrotar alguém no jogo GO. Agora, temos modelos de linguagem natural capazes de pegar qualquer trecho e gerar um bloco novo de texto que com certeza vai ser muito bom”, compara. “Isso é incrível.”


SOBRE O AUTOR

Mark Sullivan é redator sênior da Fast Company e escreve sobre tecnologia emergente, política, inteligência artificial, grandes empres... saiba mais