Passado o choque inicial, dúvidas e mistérios ainda cercam a criação do DeepSeek
As lições aprendidas com a criação do DeepSeek podem beneficiar empresas de IA dos EUA e acelerar o avanço rumo à inteligência artificial geral

A startup chinesa DeepSeek causou um grande impacto na comunidade de inteligência artificial e no mercado financeiro ao demonstrar que conseguiu criar um modelo de ponta com muito menos poder computacional e investimento do que se imaginava ser possível.
Além disso, a empresa divulgou suas descobertas em artigos científicos sobre a criação do DeepSeek e disponibilizou seu modelo para outros desenvolvedores, levantando duas questões importantes: será que os EUA perderam sua vantagem na corrida da IA? E será mesmo que precisamos de tantos chips caros como nos fizeram acreditar?
Quanto poder computacional a DeepSeek realmente usou?
A DeepSeek afirma ter treinado seu modelo mais recente com um orçamento de apenas US$ 5,6 milhões e sem utilizar os chips de inteligência artificial mais avançados. No entanto, as informações divulgadas nos artigos científicos sobre os custos e métodos utilizados são incompletas.
“O valor de US$ 5,6 milhões se refere apenas à última etapa do treinamento do sistema”, explicou Alan Fern, professor de IA e robótica na Universidade do Estado do Oregon, nos EUA, em entrevista à Fast Company.
“Para testar diferentes configurações e encontrar a melhor combinação de técnicas que permitisse um treinamento tão barato, eles provavelmente gastaram muito mais do que isso”, avaliou Fern. Ele também destaca que, com os dados disponíveis, é impossível replicar exatamente o processo de treinamento e criação do DeepSeek.
Como a criação do DeepSeek foi possível com tão poucos recursos?
A DeepSeek parece ter desenvolvido algumas inovações legítimas para tornar seus modelos mais eficientes. No entanto, as técnicas utilizadas – como a arquitetura de mistura de especialistas (Mixture-of-Experts) e o raciocínio em cadeia (Chain-of-Thought) – já são amplamente conhecidas e usadas pelos principais laboratórios de pesquisa em inteligência artificial.
com os dados disponíveis, é impossível replicar exatamente o processo de treinamento do DeepSeek.
Os artigos publicados pela DeepSeek descrevem essas inovações apenas de forma geral, sem revelar exatamente como a empresa as implementou. “Pode ter sido um único grande truque ou um conjunto de pequenas otimizações muito bem executadas”, sugere Robert Nishihara, cofundador da plataforma de IA Anyscale.
Qual inovação da DeepSeek mais pode influenciar outros laboratórios de IA?
Jack Clark, da Anthropic, destacou recentemente que a DeepSeek conseguiu usar um modelo maior, o DeepSeek-V3 (com cerca de 700 bilhões de parâmetros), para ensinar um modelo menor, o R1, a raciocinar de forma semelhante ao o1, da OpenAI – tudo isso com uma quantidade surpreendentemente pequena de dados de treinamento e sem supervisão humana.

Segundo Clark, o V3 gerou 800 mil exemplos de textos anotados, mostrando perguntas e as cadeias de raciocínio seguidas para respondê-las. A DeepSeek demonstrou que, após processar esses exemplos por um tempo, o modelo menor começou espontaneamente a “pensar” sobre suas respostas, afirma Andrew Jardine, chefe de go-to-market na Adaptive ML.
“Basta apresentar um problema ao modelo e pedir que crie respostas. Conforme recebe feedback sobre quais respostas estão corretas ou erradas, ele ajusta sua abordagem e vai refinando seu raciocínio de forma autônoma”, explica Jardine. “Com o tempo, ele começa a testar diferentes caminhos, aprendendo sozinho quais estratégias funcionam melhor.” Segundo os pesquisadores responsáveis pela criação do DeepSeek, esse foi o grande feito do projeto.
Por que as empresas de IA dos EUA ainda não fizeram o que a DeepSeek fez?
“Quem disse que elas não fizeram?”, questiona Jardine. “Não sabemos exatamente quais técnicas o Google e a OpenAI estão usando, nem o quão eficientes são seus métodos de treinamento.” As empresas de IA dos EUA não divulgam detalhes sobre seus processos nem publicam os pesos de seus modelos, como a DeepSeek fez.
“Há bons motivos para acreditar que elas já utilizam algumas dessas técnicas de eficiência”, diz Jardine. Por isso, não seria surpresa se o próximo modelo de raciocínio da OpenAI, o o3, fosse mais econômico, rápido e eficiente do que os modelos da DeepSeek.
A ação da Nvidia ainda vale 50 vezes o lucro?
A Nvidia fornece até 95% dos chips avançados de IA usados para pesquisa, treinamento e execução de modelos de inteligência artificial de ponta. As ações da empresa perderam 17% do valor na segunda-feira, quando os investidores interpretaram os resultados da pesquisa da DeepSeek como um sinal de que seriam necessários menos chips caros da Nvidia no futuro do que se previa anteriormente.
A DeepSeek parece ter desenvolvido algumas inovações legítimas para tornar seus modelos mais eficientes.
Yann LeCun, da Meta, afirmou que a queda do preço das ações foi fruto de “grande mal-entendido sobre os investimentos em infraestrutura de IA”. Segundo ele, embora a DeepSeek tenha demonstrado que modelos de ponta podem ser treinados com menos GPUs, o principal papel desses chips no futuro será na inferência – o processo de raciocínio que o modelo realiza ao responder a perguntas ou problemas dos usuários.
O vencedor do Prêmio Turing explicou que, à medida que os sistemas de IA processam mais dados – e diferentes tipos de dados – durante a inferência, os custos computacionais continuam a aumentar.
A empresa usou modelos da OpenAI para a criação do DeepSeek?
Ninguém sabe ao certo, e essa questão ainda divide especialistas. O jornal “Financial Times” informou na semana passada que a OpenAI acredita ter encontrado indícios de que a DeepSeek utilizou conteúdo gerado por seus modelos para treinar seus próprios sistemas.
O custo real do desenvolvimento dos modelos da DeepSeek ainda é um mistério. No entanto, a longo prazo, as empresas com acesso à infraestrutura e aos chips mais avançados provavelmente terão vantagem, já que os ganhos de desempenho do pré-treinamento tendem a diminuir e o poder computacional se torna cada vez mais crucial na fase de inferência – quando a IA precisa processar e gerar respostas.
Portanto, as respostas às duas últimas perguntas são "provavelmente não" e "talvez sim".