Modelo de linguagem “aberto” pode redefinir o significado de IA gratuita
Para enfrentar os problemas dos LLMs existentes, a ideia da AI2 é dar à comunidade de IA visibilidade total dos modelos de linguagem de última geração
Bem antes do ChatGPT, os pesquisadores de IA de linguagens humanas, a maioria deles acadêmicos, já compartilhavam suas pesquisas abertamente. A troca livre de informações e inovações permitiu que a comunidade de IA em geral reproduzisse, validasse e criticasse os trabalhos uns dos outros.
Mas tudo isso mudou com a chegada de grandes modelos de linguagem (LLMs, na sigla em inglês)) de grande alcance, como o GPT-4 da OpenAI. A partir daí, os investidores começaram a pressionar os laboratórios de pesquisa a tratar os detalhes de suas descobertas como propriedade intelectual valiosa. Ou seja: a manter sua tecnologia subjacente em segredo.
O Allen Institute for AI (AI2), organização sem fins lucrativos criada por Paul Allen (co-fundador da Microsoft) em 2014, quer reverter essa tendência. Na semana passada, o AI2 lançou um novo grande modelo de linguagem chamado OLMo 7B e compartilhou todos os componentes de software e de dados de treinamento que o acompanham no GitHub e no Hugging Face.
"Durante esse processo, queremos disponibilizar tudo – os dados de treinamento, os dados de pré-treinamento, o código-fonte, os detalhes dos parâmetros e assim por diante", declarou Hanna Hajishirzi, diretora sênior de pesquisa da AI2, que lidera o projeto OLMo. "Também estamos divulgando todos os pontos de verificação intermediários que obtivemos durante o treinamento."
A ideia é permitir à comunidade de pesquisadores de IA que visualize todas as etapas funcionamento de um grande modelo de linguagem de última geração, o que pode permitir o avanço do processamento de linguagens naturais e ajudar a enfrentar os problemas dos LLMs existentes de forma científica.
"Precisamos implementar uma metodologia muito clara para avaliar como esses modelos estão funcionando", explica Sophie Lebrecht, COO da AI2. "A única maneira de fazer isso é se tivermos acesso total aos dados, para que possamos analisá-los e realmente entender como o modelo está se comportando."
Os pesquisadores de IA ainda estão com dificuldades para atribuir um resultado específico gerado por um LLM a um determinado dado de treinamento. Conseguir visualizar o raciocínio do modelo, desde os dados com os quais foi treinado até suas decisões e resultados, pode ajudar os pesquisadores a progredir nesse aspecto. Isso poderia permitir o avanço no combate a outros problemas sérios, como percepções distorcidas e preconceitos.
Também é verdade que os LLMs atuais são tão grandes – e tão caros para serem treinados e operados – que muitos pesquisadores são forçados a usar grandes modelos fechados (por meio de uma API) de players respeitados, como a OpenAI ou o Google, para realizar pesquisas assistidas por inteligência artificial.
A ideia é permitir à comunidade de pesquisadores de IA que visualize todas as etapas funcionamento de um grande modelo de linguagem de última geração.
Mas, ao fazer isso, eles precisam aceitar o resultado desses modelos no estado em que se encontram, sem nenhuma maneira de entender o "porquê" e o "como" se chegou àquele resultado.
O cientista-chefe de IA da Meta, Yann LeCun, um defensor declarado de novos modelos de IA de fonte aberta, é citado no anúncio do OLMo. "A vibrante comunidade que vem do código aberto é a solução mais rápida e eficaz para construir o futuro da IA", disse ele no anúncio, ecoando um lema conhecido no meio.
Hajishirzi diz que os modelos Llama de código aberto da Meta têm sido extremamente valiosos, mas nem mesmo eles são totalmente abertos. "Eles tornaram o modelo aberto, mas ainda assim os dados não estão disponíveis, não entendemos as conexões que vão desde os dados até os recursos. Além disso, os detalhes do código de treinamento não estão disponíveis. Muitas coisas ainda estão ocultas", afirmou.
O OLMo é considerado um modelo de médio porte, com sete bilhões de parâmetros (pontos de conexão semelhantes a sinapses em uma rede neural). Ele foi treinado usando dois trilhões de tokens (palavras, partes de palavras ou frases).
Lebrecht ressalta que, em um ambiente no qual os pesquisadores de IA mantêm suas descobertas em segredo, outros pesquisadores no meio acadêmico ou em outras empresas de tecnologia geralmente acabam tentando refazer o trabalho deles.
O mesmo caminho é repetido, e isso tem um impacto importante na quantidade de energia usada para operar os servidores e nos efeitos das emissões de carbono sobre o meio ambiente.
"Com a abertura dos códigos de linguagem, esses diferentes grupos de pesquisa ou diferentes empresas não terão necessidade de fazer essa outra pesquisa em separado", explica Lebrecht. "Quando tudo for aberto, acreditamos que será um grande passo para descarbonizar o impacto da IA."