DeepSeek: muito barulho para pouca música
No lugar de tentar competir em precisão absoluta, o DeepSeek busca um equilíbrio entre desempenho, custo de processamento e espaço

Nos últimos dias, o mundo da inteligência artificial foi sacudido pelo anúncio do DeepSeek, o mais novo modelo desenvolvido na China – e, não por acaso, envolto em uma certa aura de controvérsia geopolítica.
Por mais que a inovação represente um golpe de imagem para o Ocidente , que se considera na liderança tecnológica, o impacto efetivo na transformação digital das empresas parece, por ora, bastante limitado.
Neste artigo, vou expor como o DeepSeek se insere nesse cenário e por que – ainda que seja um avanço digno de nota – não devemos esperar que as companhias brasileiras, em particular, adotem massivamente essa tecnologia tão cedo.
AVANÇO GEOPOLÍTICO, MAS COM MUITAS INTERROGAÇÕES
Não há dúvida de que o desenvolvimento do DeepSeek pela China sinaliza um reposicionamento geopolítico importante. Empresas e países hoje considerados periféricos passam a enxergar a possibilidade de treinar seus modelos, disputando espaços que antes pareciam exclusivos do Vale do Silício. Isso, em tese, poderia remodelar o panorama global, com novas capacidades de IA surgindo em todos os cantos do mundo.
Ainda assim, pairam suspeitas consideráveis sobre o real custo de treinamento e a veracidade dos benchmarks publicados. Falar em treinar um modelo de larga escala por menos de US$ 10 milhões (valores divulgados pela própria equipe da companhia chinesa) soa surpreendente – para não dizer otimista em demasia.
A história recente mostra que alegações revolucionárias dessa magnitude costumam vir acompanhadas de metodologias questionáveis e de resultados que nem sempre se confirmam em uso prático. Especialmente no contexto chinês – onde muitas vezes há intervenção governamental e falta de transparência –, o ceticismo é mais do que justificável.
Uma visão interessante foi compartilhada pelo CEO da Anthropic, Dario Amodei, que discutiu diretamente a performance do modelo DeepSeek em um ensaio recente. Segundo ele, as afirmações de que o DeepSeek teria feito "por US$ 6 milhões o que custa bilhões às empresas de IA dos EUA" são simplesmente falsas.
Ele ressalta que o Claude 3.5 Sonnet, desenvolvido pela Anthropic, é um modelo de porte médio (como o concorrente chinês) que custou algumas dezenas de milhões de dólares para ser treinado, sem envolvimento de um modelo maior ou mais caro. O DeepSeek seria portanto um modelo três a quatro vezes mais barato, o que é uma evolução natural da curva ao longo de um ano.
OTIMIZAÇÃO, NÃO REVOLUÇÃO
Por outro lado, é importante reconhecer o mérito técnico do DeepSeek. A equipe responsável não criou um novo paradigma de IA, mas uma otimização robusta do que já existe. No lugar de tentar competir em precisão absoluta, o DeepSeek busca um equilíbrio entre desempenho, custo de processamento e espaço.
Para usuários comuns ou aplicações de menor complexidade, isso pode ser suficiente. E como a China é o maior mercado consumidor de internet do planeta, não é pouca coisa atender a necessidades de escala tão abrangentes.
A customização e o controle oferecidos pelo DeepSeek não se diferenciam tanto de outras propostas de mercado, como o Llama – modelo de código aberto da Meta, que também fornece certa independência operacional e transparência open source.

Apesar de todo o discurso de que o DeepSeek usa mais aprendizado por reforço (RL) em vez de ajuste fino supervisionado (SFT), essa abordagem não representa uma ruptura. É, antes, uma melhoria incremental que reduz a necessidade de grandes conjuntos de dados rotulados, mas não necessariamente entregar resultados superiores
Para empresas que lidam com dados sensíveis ou precisam se adequar a regulamentações específicas de compliance, confiar em um modelo cujo desenvolvimento e benchmarks não são transparentes é um risco significativo.
Neste aspecto, vejo pouca vantagem em adotar o DeepSeek frente a soluções já consolidadas e que contam com comunidades e ecossistemas de suporte mais robustos.
Entretanto, quando falamos de casos de uso corporativos mais sofisticados – empresas exigindo análises preditivas complexas, multimodalidade, integrações avançadas com sistemas internos e compliance rigoroso –, o DeepSeek se mostra inferior a modelos como GPT, Claude e Gemini. Em outras palavras, a maturidade e a escalabilidade de soluções ocidentais ainda lideram a corrida pelo mercado empresarial de alto valor.
PERFORMANCE INFERIOR AOS PRINCIPAIS MODELOS
Mesmo com a otimização de custo e o aumento de velocidade, a performance do DeepSeek – em termos de linguagem, tomada de decisão, raciocínio contextual e multimodalidade – permanece abaixo dos líderes do mercado. Isso é crítico se pensarmos no contexto brasileiro.
Aqui, a maioria das organizações ainda está engatinhando na adoção de IA mas, quando decide investir, geralmente procura soluções maduras, estáveis e validadas globalmente em termos de compliance e interface.
para nos aproximarmos da superinteligência, precisamos multiplicar em milhares de vezes a capacidade de processamento atual.
A comparação com GPT ou com o emergente Gemini Advanced deixa claro que a escolha de “baratear” a estrutura do modelo traz consequências para sua robustez. Esses modelos norte-americanos (ou desenvolvidos em parceria com laboratórios estrangeiros) seguem investindo bilhões de dólares em infraestrutura, pesquisa e desenvolvimento, buscando a tal “superinteligência”. E esse poder computacional massivo ainda faz diferença em aplicações que exigem o estado da arte.
Além disso, medir inteligência é algo ainda pouco objetivo. Fala-se que esses modelos estão “no nível de um graduado do ensino médio”, mas isso esconde um espectro enorme de capacidades. A mesma IA que escreve um bom artigo pode falhar em tarefas analíticas mais complexas. A discrepância entre um grande modelo “apenas” descrito em artigos científicos e uma solução confiável em produção é gigante.
A INFRESTRUTURA CONTINUA MANDANDO
Apesar de a China ter dado um passo estratégico relevante, não se pode negligenciar o quanto o Ocidente – sobretudo os Estados Unidos – detém o domínio da cadeia produtiva de GPUs e semicondutores de alto desempenho.
A computação de inteligência artificial em larga escala continua extremamente cara e dificilmente veremos modelos de ponta surgindo sem acesso a esse “combustível” tecnológico.

Sim, o DeepSeek alega driblar parte dessa limitação, afirmando ser 45 vezes mais barato, em termos de hardware, para alcançar resultados similares aos dos modelos norte-americanos.
Mas, para nos aproximarmos de algo perto da superinteligência, ainda precisamos multiplicar em milhares de vezes a capacidade de processamento atual. Nesse quesito, quem controla a produção e o fluxo de chips segue em vantagem estratégica.
GANHO DE VELOCIDADE E MENOR CUSTO DE TREINAMENTO
Naturalmente, seria injusto ignorar os pontos positivos do DeepSeek. A redução de parâmetros tem gerado ganhos substanciais em velocidade e diminuído o custo de treinamento, indicando que a fronteira de otimização ainda tem muito a ser explorada.
Mesmo que a cifra de US$ 6 milhões a US$ 10 milhões possa ser questionada, não deixa de surpreender o quão mais eficiente o modelo chinês parece em comparação a modelos ocidentais de ponta, quando falamos de custo/ benefício.
No Brasil, a maioria das organizações ainda está engatinhando na adoção de IA.
Isso dialoga diretamente com o “paradoxo de Jevons”, segundo o qual ao tornar mais eficiente o uso de um recurso (no caso, poder computacional), acabamos aumentando o consumo geral desse recurso.
Ou seja, quanto mais eficiente for a IA, maior tende a ser a adoção de soluções que demandam... IA. E isso, paradoxalmente, impulsiona ainda mais a demanda por novas e melhores infraestruturas.
POR QUE AS EMPRESAS BRASILEIRAS NÃO DEVEM ADOTAR EM MASSA
No fim das contas, quando voltamos nosso olhar especificamente para o contexto brasileiro, é provável que o DeepSeek não seja amplamente adotado. As razões são claras:
1. Compliance e transparência
A maioria das empresas locais que se preocupa com conformidade regulatória e segurança de dados continuará optando por grandes fornecedores ocidentais ou soluções de código aberto de comunidades consolidadas.
2. Integração com plataformas existentes
Plataformas como as do GPT e soluções SaaS (Software-as-a-Service) ocidentais já têm ecossistemas desenvolvidos (APIs, plugins, integrações), além de suporte e reconhecimento no mercado. Adotar um modelo chinês ainda pouco validado traz barreiras de aceitação, mesmo que seja mais barato em tese.
3. Performance e escopo
Para uso intensivo em análises de alto valor ou interação multimodal, soluções como GPT-4, Claude ou Gemini mantêm um histórico de resultados superiores. E as empresas estão dispostas a investir em qualidade – mesmo que o custo seja mais alto.
4. Falta de dados confiáveis
O ceticismo sobre os benchmarks e o histórico de desinformação não inspiram confiança imediata. Em terra de fake news, quem procura solidez de resultados recorre a referências reconhecidas e parceiros de maior transparência.
5. Interface
Em uma transformação digital, as melhores ferramentas são aquelas que as pessoas usam. Cultura e processos importam, e interfaces mais fáceis, robustas e intuitivas como a do Chat GPT levam larga vantagem.
Por tudo isso, não vejo um “efeito DeepSeek” em larga escala nas corporações brasileiras, pelo menos não no curto ou médio prazo. Talvez empresas de menor porte, sem grandes requisitos de compliance, possam realizar pequenos testes, mas dificilmente teremos um movimento que desbanque a hegemonia de modelos mais consagrados