Nova IA Gemini 1.5 do Google pode mergulhar fundo em oceanos de vídeo e áudio

Ainda em fase de testes, o novo modelo é capaz de analisar uma hora de vídeo, 11 horas de áudio ou textos de até 700 mil palavras de uma só vez

Créditos: Jeremy Bishop/ Cristian Palmer/ Unsplash

Harry McCracken 3 minutos de leitura

No início de fevereiro, o Google anunciou uma nova linha de chatbots de IA, apresentando o Gemini Advanced – um bot construído com base em seu grande modelo de linguagem (LLM, na sigla em inglês) mais avançado, o Gemini 1.0 Ultra. Mas o reinado deste modelo como o mais poderoso da empresa pode acabar em breve.

Isso porque ela acaba de anunciar o Gemini 1.5 Pro, uma atualização de seu LLM anterior. Durante uma apresentação para jornalistas, Oriol Vinyals, principal cientista do Google DeepMind, demonstrou as incríveis capacidades do novo modelo.

De acordo com o Google, o Gemini 1.5 Pro supera seu antecessor em eficiência, tanto no treinamento quanto na geração de conteúdo. Além disso, é capaz lidar com um número maior de tokens – os pontos de dados em que um grande modelo de linguagem divide um conteúdo para processá-lo. 

Enquanto o Gemini 1.0 conseguia lidar com 32 mil tokens de uma vez, o 1.5 tem uma capacidade padrão de 128 mil tokens, a mesma do modelo GPT-4 Turbo, da OpenAI. Mas a empresa permitirá que alguns clientes experimentem uma versão com capacidade de um milhão de tokens e afirma já ter testado o modelo com 10 milhões deles.

Para leigos, como a maioria de nós, esses números podem não dizer muita coisa. Mas, no caso do Gemini 1.5 Ultra, isso se traduz em uma hora de vídeo, 11 horas de áudio, textos de mais de 700 mil palavras ou 30 mil linhas de código de programação. Tudo isso permite ao modelo lidar com entradas muito mais complexas do que um simples comando em texto ou uma imagem.

Crédito: Google DeepMind

Durante a apresentação, o Google demonstrou como o Gemini 1.5 Pro processou mais de 400 páginas de áudio transcrito do pouso da Apollo 11 na Lua, dividindo-o em 326.678 tokens. Isso permitiu que o LLM atendesse a solicitação como “encontre três momentos engraçados” e “faça uma lista apenas com as citações”. 

Além disso, ao ser apresentado a um esboço de uma bota de astronauta, o modelo entendeu que se referia à famosa frase de Neil Armstrong – “esse é um pequeno passo para o homem, mas um gigantesco salto para a humanidade”.

Em outra demonstração, o Gemini 1.5 Pro transformou o filme mudo de comédia de Buster Keaton “Sherlock Jr.” (Bancando o Águia) em 696.161 tokens e conseguiu resumir o enredo, responder a perguntas e identificar momentos específicos.

Em outro exemplo, o LLM foi alimentado com uma gramática de kalamang – um idioma falado por menos de 200 pessoas – e foi capaz de traduzir frases para o inglês com alto nível de proficiência.

Crédito: Google DeepMind

Mas por que a empresa optou por lançar primeiro o modelo 1.5 Pro em vez de aprimorar ainda mais o Ultra? É que, quanto maior o conjunto de dados de treinamento de um LLM, mais difícil é fazê-lo funcionar de forma satisfatória, o que deu à versão Pro uma vantagem como campo de testes para o Google.

“Naturalmente, o primeiro conjunto de modelos que treinamos até a conclusão é a série Pro, que é menor em comparação com a Ultra”, explicou Vinyals durante a apresentação. “Esta é a razão pela qual ele deve estar disponível mais cedo.”

Por enquanto, o Gemini 1.5 Pro está em fase testes com um grupo seleto de clientes do serviço de nuvem Vertex AI e da plataforma de desenvolvimento de software AI Studio. O Google não informou quando ele estará disponível para mais desenvolvedores ou – por meio de seus chatbots – para o grande público. 

Mas, com os rápidos avanços da concorrência – Aaron Holmes, do “The Information”, informou que a OpenAI está desenvolvendo um mecanismo de busca –, a empresa tem um grande incentivo para disponibilizar seu mais poderoso LLM o quanto antes.


SOBRE O AUTOR

Harry McCracken é editor de tecnologia da Fast Company baseado em San Francisco. Em vidas passadas, foi editor da Time, fundador e edi... saiba mais