IAs podem estar “trapaceando” ao ser submetidas a testes de matemática
Modelos avançados tropeçam em novo teste de matemática avançada: nenhum consegue passar de 5% de acertos

Especialistas da comunidade de inteligência artificial vêm discutindo há algum tempo se os métodos atuais para avaliar as habilidades matemáticas dos modelos, ou seja, os testes para IA, estão falhando.
A principal preocupação é que, embora os benchmarks existentes incluam problemas matemáticos bastante difíceis, essas questões – e suas respectivas soluções – acabam sendo publicadas online rapidamente.
Isso torna os conjuntos problema-solução facilmente acessíveis para empresas de IA que coletam grandes volumes de dados para treinar seus modelos. O receio é que, na hora do teste para IA, os modelos já tenham visto previamente as questões e respostas nos dados de treinamento.
Para contornar esse problema, foi criado um novo benchmark chamado MathArena. A novidade utiliza problemas retirados de competições matemáticas recentes e Olimpíadas de Matemática, onde há forte incentivo para manter os desafios em sigilo.
Além disso, os pesquisadores responsáveis pelo MathArena desenvolveram um método padronizado de aplicação do teste, impedindo que as empresas adaptem a avaliação em benefício de seus próprios modelos.
O MathArena acaba de divulgar os resultados mais recentes, incluindo questões da Olimpíada de Matemática dos EUA de 2025. Um dos problemas propostos é o seguinte:
O receio é que, na hora do teste, os modelos já tenham visto as respostas nos dados de treinamento.
“Seja H o ortocentro do triângulo acutângulo ABC, F o pé da altura traçada de C até AB, e P o reflexo de H em relação a BC. Suponha que a circunferência circunscrita ao triângulo AFP intersecta a reta BC em dois pontos distintos, X e Y. Prove que C é o ponto médio de XY.”
Nada fácil – e pior: o teste para IA exige não só a resposta correta, mas também a explicação passo a passo do raciocínio seguido pelo modelo.
O desempenho das IAs, porém, foi decepcionante. Alguns dos modelos mais poderosos e celebrados do mundo participaram da avaliação, e nenhum ultrapassou a marca de 5%.
O melhor desempenho foi do modelo R1 da DeepSeek, com 4,76% de acertos. O Gemini 2.0 Flash Thinking, do Google, fez 4,17%. Já o Claude 3.7 Sonnet (Thinking), da Anthropic, ficou com 3,65% e o o3 mini, da OpenAI, com apenas 2,08%.

Os números levantam algumas hipóteses: talvez o MathArena traga questões muito mais difíceis do que benchmarks anteriores. Ou talvez os modelos de linguagem simplesmente ainda não saibam explicar bem seu raciocínio matemático.
Outra possibilidade é que os resultados de benchmarks anteriores estivessem inflacionados, já que os modelos podem ter sido treinados com as respostas.
Seja como for, parece que os LLMs ainda têm muito dever de casa pela frente.
Atualização: pouco depois da publicação destes resultados, o novo Gemini 2.5 Pro, do Google, alcançou 24,4% no mesmo teste — superando os concorrentes por larga margem.