Como a restrição à venda de chips de IA levou à criação do DeepSeek
Proibidos de usar os chips top de linha, pesquisadores de fora dos EUA tiveram que encontrar formas de treinar e operar modelos de IA com o que tinham à mão
![](https://fastcompanybrasil.com/wp-content/uploads/2025/01/inteligencia-artificial_DeepSeek_superchips.jpg)
A empresa chinesa de IA DeepSeek causou um choque na indústria de inteligência artificial. Devido à restrição à venda de chips de IA mais poderosos – considerados necessários para criar modelos de IA de ponta – a DeepSeek realizou uma façanha de engenharia ao conseguir que seus pesquisadores fizessem mais com menos.
Os modelos DeepSeek-V3 e DeepSeek-R1, lançados pela empresa nos últimos dias, atingiram desempenho de ponta em testes de benchmark e custaram muito menos tempo e dinheiro para treinar e operar do que outros modelos de ponta.
E a cereja do bolo: os pesquisadores da DeepSeek compartilharam suas descobertas. Eles explicaram os avanços em artigos científicos e disponibilizaram os modelos como código aberto para que outros possam utilizá-los para criar seus próprios modelos e agentes.
A principal razão pela qual a DeepSeek teve que fazer mais com menos é que o governo Biden impôs a restrição à venda de chipsde IA avançados, proibindo que fabricantes dos EUA, como a Nvidia, enviassem as GPUs (unidades de processamento gráfico, os chips preferidos para treinar IAs) mais potentes para países fora dos EUA.
Essa iniciativa começou em outubro de 2022 e foi atualizada e ajustada várias vezes para fechar brechas. Pouco antes de deixar o cargo, Biden emitiu uma ordem executiva apertando ainda mais as restrições.
A DeepSeek aparentemente seguiu as regras: utilizou os chips H800 que os EUA permitiram que a Nvidia vendesse na China, em vez dos mais potentes H100 usados por empresas norte-americanas de tecnologia e IA.
Com chips menos potentes, os pesquisadores foram forçados a encontrar maneiras de treinar e operar modelos de IA usando menos memória e poder de computação.
Os modelos da DeepSeek utilizam a abordagem "mixture of experts" (mistura de especialistas), que permite ativar apenas um subconjunto dos parâmetros do modelo especializados em determinado tipo de consulta. Isso economiza poder computacional e aumenta a velocidade.
CHINESES DRIBLARAM A RESTRIÇÃO À VENDA DE CHIPS DE IA
A DeepSeek não inventou essa abordagem; os modelos GPT-4, da OpenAI, e DBRX, da Databricks, também a utilizam. Mas a empresa descobriu novas formas de usar essa arquitetura para reduzir o tempo de processamento necessário durante o pré-treinamento – ou seja, o processo em que o modelo analisa enormes quantidades de dados para otimizar seus parâmetros e responder corretamente às consultas dos usuários.
No DeepSeek-R1 – um modelo de raciocínio comparável à série o1, a mais recente da OpenAI –, a DeepSeek encontrou maneiras de economizar tempo na fase de inferência, que é quando o modelo "pensa" sobre diferentes caminhos para encontrar a melhor resposta.
Durante esse processo de tentativa e erro, o sistema precisa coletar e armazenar cada vez mais informações sobre o problema e suas possíveis soluções em sua "janela de contexto" (sua memória).
A DeepSeek usou os chips H800, em vez dos mais potentes H100 usados por empresas norte-americanas.
À medida que a janela de contexto adiciona mais informações, a demanda por mais memória e poder de processamento aumenta rapidamente. Talvez a maior inovação da DeepSeek seja a drástica redução da quantidade de memória necessária para armazenar todos esses dados.
Em termos gerais, o sistema R1 armazena os dados de contexto de forma compactada, resultando em economia de memória e melhor velocidade, sem afetar a qualidade da resposta apresentada ao usuário.
A DeepSeek afirmou em um artigo científico que seu modelo V3 custou apenas US$ 5,6 milhões para ser treinado. Em comparação, o CEO da OpenAI, Sam Altman, afirmou que o custo para treinar o GPT-4 foi superior a US$ 100 milhões.
Desde o lançamento do DeepSeek-V3, desenvolvedores vêm elogiando o desempenho e a utilidade do modelo. Os consumidores estão adotando um novo chatbot da DeepSeek (alimentado pelos modelos V3 e R1), que agora ocupa o primeiro lugar no ranking de aplicativos gratuitos da Apple.
![](https://fastcompanybrasil.com/wp-content/webp-express/webp-images/uploads/2025/01/inteligencia-artificial_DeepSeekR1.jpg.webp)
Esse sucesso atraiu ataques cibernéticos contra a DeepSeek, levando a empresa a limitar temporariamente novas inscrições de usuários.
Nos últimos dois anos, a narrativa dominante na indústria era que criar modelos de ponta exigia bilhões de dólares, grandes quantidades dos chips mais rápidos da Nvidia e um grande número de pesquisadores de elite. Esse pressuposto foi desafiado tanto no setor quanto entre investidores.
Como resultado, as ações da Nvidia caíram quase 17% nesta segunda-feira (dia 27), à medida que investidores questionam suas suposições sobre a demanda por GPUs caras.
Tudo isso porque um pequeno grupo de pesquisadores chineses sabia que precisaria de grandes avanços em engenharia para criar modelos de ponta usando chips que não são de ponta – por conta da restrição da venda de chips de IA que lhes complicou a vida, obrigando-os a ser... inovadores.
Com informações da redação da Fast Company Brasil