07-04-2025 | INTELIGÊNCIA ARTIFICIAL

Gemini 2.5 Pro pode ser o modelo de IA mais importante do ano (até agora)

O novo modelo supera os concorrentes em tudo, desde matemática avançada até compreensão de contextos longos

Créditos: Jaque Silva/ NurPhoto/ Getty Images

Mark Sullivan 3 minutos de leitura

O Google lançou seu novo modelo experimental de IA, o Gemini 2.5 Pro, no final de março, e ele rapidamente alcançou notas máximas em vários testes de referência de codificação, matemática e raciocínio, tornando-se um forte candidato ao posto de melhor modelo do mundo atualmente.

O Gemini 2.5 Pro é um modelo de “raciocínio”, o que significa que suas respostas derivam de uma combinação entre os dados de treinamento e o raciocínio em tempo real realizado em resposta ao comando ou pergunta do usuário.

Como outros modelos mais recentes, o Gemini 2.5 Pro pode consultar a web, mas também contém um retrato relativamente atualizado do conhecimento mundial: seus dados de treinamento vão até o final de janeiro de 2025.

No ano passado, para melhorar o desempenho dos modelos, pesquisadores de IA começaram a ensinar os modelos a “raciocinar” enquanto estão ativos e respondendo a comandos.

Veja também

Essa abordagem exige que os modelos processem e retenham quantidades cada vez maiores de dados para chegar a respostas precisas. O Gemini 2.5 Pro, por exemplo, pode lidar com até um milhão de tokens.

No entanto, os modelos muitas vezes têm dificuldade em lidar com sobrecarga de informações, o que dificulta a extração de insights significativos a partir de tanto contexto.

O Google parece ter avançado nesse aspecto. O canal do YouTube AI Explained destacou que o Gemini 2.5 teve um desempenho excelente em um novo teste de referência chamado Fiction.liveBench, projetado para avaliar a capacidade de um modelo de lembrar e compreender informações contextuais.

pesquisadores de IA ensinaram os modelos a “raciocinar” enquanto estão ativos e respondendo a comandos.

Por exemplo, o Fiction.liveBench pode pedir ao modelo que leia um romance e responda perguntas que exigem uma compreensão profunda da história e dos personagens.

Alguns dos modelos de ponta, incluindo os da OpenAI e da Anthropic, se saem bem quando a quantidade de dados armazenados (a janela de contexto) é relativamente pequena. Mas à medida que essa janela aumenta para 32K, depois 60K e até 120K – mais ou menos o tamanho de um romance curto – o Gemini 2.5 Pro se destaca por sua compreensão superior.

Isso é importante porque alguns dos usos mais produtivos da IA generativa até agora envolvem compreender e resumir grandes quantidades de dados. Um atendente pode depender de uma ferramenta de IA para pesquisar em grandes bancos de dados para conseguir ajudar alguém com um problema técnico, por exemplo.

TESTES DE MATEMÁTICA

O Gemini também teve pontuação muito superior a outros modelos de raciocínio em um novo teste chamado MathArena, que desafia os modelos com questões difíceis de olimpíadas e competições recentes de matemática.

O teste também exige que o modelo mostre claramente seu raciocínio passo a passo até chegar à resposta. Modelos de ponta da OpenAI, Anthropic e DeepSeek não passaram de 5% da pontuação máxima, enquanto o Gemini 2.5 Pro conseguiu impressionantes 24,4%.

O novo modelo do Google também teve pontuação alta em outro teste extremamente difícil chamado Humanity’s Last Exam, que busca mostrar quando modelos de IA superam o conhecimento e raciocínio de especialistas em determinadas áreas.

Crédito: Gerd Altmann e Brian Penny/ Pixabay

O Gemini 2.5 marcou 18,8%, ficando atrás apenas do modelo Deep Research da OpenAI. Também está agora no topo do ranking colaborativo de referência, o LMArena.

Por fim, o Gemini 2.5 Pro está entre os melhores modelos em codificação. Alcançou 70,4% no benchmark LiveCodeBench, ficando logo atrás do modelo o3-mini da OpenAI, que marcou 74,1%.

No SWE-bench (que mede codificação orientada por agentes), o Gemini 2.5 Pro teve 63,8%, enquanto o mais recente Claude 3.7 Sonnet, da Anthropic, marcou 70,3%. O modelo do Google também superou os da Anthropic, OpenAI e xAI no teste de leitura visual MMMU por uma margem de cerca de 6 pontos.

O Google lançou inicialmente o novo modelo apenas para assinantes pagos, mas agora o tornou acessível a todos os usuários gratuitamente.

SOBRE O AUTOR

Mark Sullivan é redator sênior da Fast Company e escreve sobre tecnologia emergente, política, inteligência artificial, grandes empres... saiba mais