Desvendando Gemma, o novo modelo de IA de código aberto do Google

Gemma marca um retorno à prática de fazer pesquisas no ecossistema de código aberto

Créditos: Simon Lee/ Alina Grubnyak/ Kevin Chin/ Unsplash

Mark Sullivan 4 minutos de leitura

O Google acaba de anunciar um novo conjunto de grandes modelos de linguagem (LLMs, na sigla em inglês), coletivamente chamados “Gemma”, marcando um retorno à prática de fazer pesquisas no ecossistema de código aberto.

Os novos modelos foram desenvolvidos pela subsidiária de inteligência artificial, a DeepMind, e outras equipes dentro do Google que foram responsáveis pelos modelos Gemini.

Eles estão disponíveis em duas versões: uma composta por uma rede neural com dois bilhões de variáveis ajustáveis (chamadas de parâmetros) e outra com sete bilhões.

Ambas são consideravelmente menores do que o Gemini Ultra, que supostamente ultrapassa um trilhão de parâmetros, e mais alinhadas com os modelos Nano, de 1,8 bilhão e 3,25 bilhões de parâmetros. Embora a versão Ultra seja capaz de lidar com solicitações complexas e nuances, ela requer data centers cheios de servidores caros.

Os modelos Gemma, por outro lado, são pequenos o suficiente para serem executados em um notebook ou desktop. Ou podem ser usados diretamente na nuvem do Google. A empresa afirma que seus pesquisadores otimizaram os modelos para rodar em GPUs Nvidia e TPUs do Google Cloud.

Crédito: Google DeepMind

Eles serão lançados para desenvolvedores na plataforma Hugging Face, juntamente com os pesos do modelo resultantes do pré-treinamento. O Google também vai incluir o código de inferência para ajustá-los, mas não fornecerá os dados e códigos usados durante o pré-treinamento.

Ambas as versões do Gemma têm duas variantes – uma pré-treinada e outra ajustada com pares de perguntas e respostas correspondentes.

Mas por que o Google decidiu lançar modelos abertos quando a maioria dos LLMs de última geração são de código fechado?

Os modelos Gemma são pequenos o suficiente para serem executados em um notebook ou desktop ou podem ser usados na nuvem do Google.

Em resumo, isso significa que a empresa reconhece que muitos desenvolvedores, grandes e pequenos, não apenas constroem seus aplicativos em cima de grandes modelos de linguagem de terceiros (como o Gemini, do Google, ou o GPT-4, da OpenAI) que acessam através de uma API paga, mas também usam modelos gratuitos e de código aberto em determinados momentos e para determinadas tarefas.

O Google prefere que os desenvolvedores construam a partir de seus modelos do que vê-los migrar para o Llama, da Meta, ou para algum outro modelo de código aberto.

Dessa forma, eles permanecem no ecossistema da empresa, possivelmente hospedando seus modelos no Google Cloud, por exemplo. Por essa mesma razão, o Gemma foi projetado para funcionar em uma variedade de plataformas comuns de desenvolvimento.

Claro, sempre há o risco de que pessoas mal-intencionadas usem a IA generativa de código aberto para causar danos. O diretor da DeepMind, Tris Warkentin, afirma que os pesquisadores do Google buscaram simular todas as formas prejudiciais com que o Gemma poderia ser usado, fizeram um extenso ajuste fino e utilizaram aprendizado por reforço para impedir que o modelo faça coisas desse tipo.

DESENVOLVEDORES E O GEMINI 1.5 PRO

A empresa também anunciou que uma nova versão de seu principal LLM chamada Gemini 1.5 Pro oferece uma janela de contexto de um milhão de tokens (palavras ou partes de palavras) – muito superior ao anterior líder do setor, o Claude 2, da Anthropic, que oferecia uma janela de 200 mil tokens.

A nova versão é capaz de analisar uma hora de vídeo, 11 horas de áudio, 30 mil linhas de código ou textos de até 700 mil palavras de uma só vez.

A métrica “tamanho da janela de contexto” sempre foi usada de forma um pouco exagerada porque, independentemente da capacidade de receber instruções complexas, não há garantia de que o LLM será capaz de dar sentido a tudo. 

Ele pode ficar sobrecarregado com grandes quantidades de dados nas solicitações e começar a gerar respostas sem sentido. Mas este não parece ser o caso do Gemini 1.5 Pro. Aqui estão algumas das coisas que os desenvolvedores têm feito com o modelo e sua janela de contexto:

- Um desenvolvedor submeteu um vídeo de uma hora e pediu ao Gemini 1.5 Pro para responder a perguntas sobre seu conteúdo. Então, pediu ao modelo para escrever um esboço detalhado de todos os slides mostrados no vídeo.

- Outro desenvolvedor instruiu o LLM a ler os relatórios de fim de ano de todos os departamentos de uma empresa, analisar metas sobrepostas e identificar maneiras de trabalharem juntos.

- Um terceiro inseriu meio milhão de linhas de código e pediu ao modelo para responder a perguntas específicas sobre ele.


SOBRE O AUTOR

Mark Sullivan é redator sênior da Fast Company e escreve sobre tecnologia emergente, política, inteligência artificial, grandes empres... saiba mais