Desvendando Gemma, o novo modelo de IA de código aberto do Google
Gemma marca um retorno à prática de fazer pesquisas no ecossistema de código aberto
O Google acaba de anunciar um novo conjunto de grandes modelos de linguagem (LLMs, na sigla em inglês), coletivamente chamados “Gemma”, marcando um retorno à prática de fazer pesquisas no ecossistema de código aberto.
Os novos modelos foram desenvolvidos pela subsidiária de inteligência artificial, a DeepMind, e outras equipes dentro do Google que foram responsáveis pelos modelos Gemini.
Eles estão disponíveis em duas versões: uma composta por uma rede neural com dois bilhões de variáveis ajustáveis (chamadas de parâmetros) e outra com sete bilhões.
Ambas são consideravelmente menores do que o Gemini Ultra, que supostamente ultrapassa um trilhão de parâmetros, e mais alinhadas com os modelos Nano, de 1,8 bilhão e 3,25 bilhões de parâmetros. Embora a versão Ultra seja capaz de lidar com solicitações complexas e nuances, ela requer data centers cheios de servidores caros.
Os modelos Gemma, por outro lado, são pequenos o suficiente para serem executados em um notebook ou desktop. Ou podem ser usados diretamente na nuvem do Google. A empresa afirma que seus pesquisadores otimizaram os modelos para rodar em GPUs Nvidia e TPUs do Google Cloud.
Eles serão lançados para desenvolvedores na plataforma Hugging Face, juntamente com os pesos do modelo resultantes do pré-treinamento. O Google também vai incluir o código de inferência para ajustá-los, mas não fornecerá os dados e códigos usados durante o pré-treinamento.
Ambas as versões do Gemma têm duas variantes – uma pré-treinada e outra ajustada com pares de perguntas e respostas correspondentes.
Mas por que o Google decidiu lançar modelos abertos quando a maioria dos LLMs de última geração são de código fechado?
Os modelos Gemma são pequenos o suficiente para serem executados em um notebook ou desktop ou podem ser usados na nuvem do Google.
Em resumo, isso significa que a empresa reconhece que muitos desenvolvedores, grandes e pequenos, não apenas constroem seus aplicativos em cima de grandes modelos de linguagem de terceiros (como o Gemini, do Google, ou o GPT-4, da OpenAI) que acessam através de uma API paga, mas também usam modelos gratuitos e de código aberto em determinados momentos e para determinadas tarefas.
O Google prefere que os desenvolvedores construam a partir de seus modelos do que vê-los migrar para o Llama, da Meta, ou para algum outro modelo de código aberto.
Dessa forma, eles permanecem no ecossistema da empresa, possivelmente hospedando seus modelos no Google Cloud, por exemplo. Por essa mesma razão, o Gemma foi projetado para funcionar em uma variedade de plataformas comuns de desenvolvimento.
Claro, sempre há o risco de que pessoas mal-intencionadas usem a IA generativa de código aberto para causar danos. O diretor da DeepMind, Tris Warkentin, afirma que os pesquisadores do Google buscaram simular todas as formas prejudiciais com que o Gemma poderia ser usado, fizeram um extenso ajuste fino e utilizaram aprendizado por reforço para impedir que o modelo faça coisas desse tipo.
DESENVOLVEDORES E O GEMINI 1.5 PRO
A empresa também anunciou que uma nova versão de seu principal LLM chamada Gemini 1.5 Pro oferece uma janela de contexto de um milhão de tokens (palavras ou partes de palavras) – muito superior ao anterior líder do setor, o Claude 2, da Anthropic, que oferecia uma janela de 200 mil tokens.
A nova versão é capaz de analisar uma hora de vídeo, 11 horas de áudio, 30 mil linhas de código ou textos de até 700 mil palavras de uma só vez.
A métrica “tamanho da janela de contexto” sempre foi usada de forma um pouco exagerada porque, independentemente da capacidade de receber instruções complexas, não há garantia de que o LLM será capaz de dar sentido a tudo.
Ele pode ficar sobrecarregado com grandes quantidades de dados nas solicitações e começar a gerar respostas sem sentido. Mas este não parece ser o caso do Gemini 1.5 Pro. Aqui estão algumas das coisas que os desenvolvedores têm feito com o modelo e sua janela de contexto:
- Um desenvolvedor submeteu um vídeo de uma hora e pediu ao Gemini 1.5 Pro para responder a perguntas sobre seu conteúdo. Então, pediu ao modelo para escrever um esboço detalhado de todos os slides mostrados no vídeo.
- Outro desenvolvedor instruiu o LLM a ler os relatórios de fim de ano de todos os departamentos de uma empresa, analisar metas sobrepostas e identificar maneiras de trabalharem juntos.
- Um terceiro inseriu meio milhão de linhas de código e pediu ao modelo para responder a perguntas específicas sobre ele.