Quando a IA dorme: novo modelo usa “descanso” para pensar e se aperfeiçoar

O sistema permite que agentes de IA “pensem” mesmo quando estão inativos – refinando memórias, antecipando respostas e integrando diferentes modelos

Crédito: Gremlin/ Getty Images

Victor Dey 4 minutos de leitura

Durante boa parte da história da inteligência artificial, os sistemas funcionaram sob demanda: o usuário fazia uma solicitação e o modelo respondia após processar os dados. Mas, à medida que a IA se torna mais autônoma – e crescem as exigências por respostas rápidas, baixa latência e mais eficiência –, o que entendemos por “inteligência” também começa a mudar.

Estamos entrando em uma nova fase, na qual esperamos que os sistemas estejam sempre prontos para o próximo comando – até mesmo nos momentos de inatividade. E a chave para esse futuro mais proativo pode estar em uma ideia inesperada: o “sono” da IA – ou, como vem sendo chamado, sleep-time compute (processamento durante o sono).

O termo surgiu em um white paper da Letta, uma startup nascida no Sky Computing Lab da Universidade da Califórnia, em Berkeley, fundada pelos pesquisadores Charles Packer e Sarah Wooders.

Desenvolvido em parceria com Ion Stoica (cofundador da Databricks e da Anyscale), o framework do sleep-time compute propõe transformar sistemas de IA reativos em agentes proativos. Em vez de esperar por comandos, esses agentes aproveitam o tempo ocioso para antecipar respostas, melhorar suas memórias e se preparar para as próximas interações.

Segundo Wooders, a ideia veio da neurociência. Assim como os humanos consolidam memórias durante o sono e refletem sobre o que viveram, a IA também deveria ser capaz de fazer isso.

O objetivo é permitir que os agentes de IA aprendam mesmo fora das tarefas ativas.

“Às vezes a gente lembra de uma conversa do dia anterior e percebe algo novo, mesmo sem estar buscando ativamente uma resposta. Já os agentes de IA, normalmente, não ‘pensam’ fora do escopo de uma tarefa”, ela explica. “Com o sleep-time, estamos oferecendo essa mesma capacidade de refletir off-line, como nós fazemos.”

O resultado é um sistema mais rápido, eficiente e preparado. Segundo o documento, o framework pode gerar ganhos de até 18% em tarefas de raciocínio, além de reduzir o custo por consulta em até 2,5 vezes. Ao distribuir o processamento entre interações e evitar repetições desnecessárias, o tempo de resposta e os custos caem consideravelmente.

POR QUE ESPERAR, SE SUA IA PODE PENSAR ANTES?

O sistema da Letta opera com dois agentes. Um deles lida com as interações em tempo real; o outro, o “agente adormecido”, entra em ação quando nos períodos de inatividade –, revisando conversas, processando arquivos enviados e reorganizando a memória. Com isso, o agente principal não precisa refazer todo o trabalho cada vez que for acionado.

O objetivo, diz Wooders, é permitir que os agentes aprendam mesmo fora das tarefas ativas, criando o que ela chama de “contexto aprendido” – ou seja, conhecimento consolidado com base em experiências anteriores.

“Com janelas de contexto maiores, o agente pode dedicar milhares de tokens para armazenar esse aprendizado, o que aumenta muito as chances de que ele já tenha refletido sobre a próxima pergunta antes mesmo de ela ser feita”, afirma.

Crédito: Freepik

Para Packer, a lógica por trás do sleep-time compute é simples: “quanto mais tempo o modelo tem para raciocinar, melhor será a resposta”. Ao manter os agentes ocupados mesmo nos momentos ociosos (quando a IA "dorme"), é possível reforçar memórias, pré-computar respostas prováveis e redistribuir recursos de forma mais eficiente, melhorando o desempenho e reduzindo custos.

Ferramentas que precisam funcionar o tempo todo – como assistentes virtuais e geradores de código – exigem respostas rápidas e com baixa latência. Mas, segundo Robert Nishihara, cofundador da Anyscale, à medida que esses sistemas ficam mais complexos, passam a demandar muito mais poder computacional, especialmente quando baseados em “sistemas multiagentes que consomem muitos recursos”.

COMO O SLEEP-TIME COMPUTE ESTÁ TRANSFORMANDO A IA

Apesar de parecer apenas um conceito teórico, várias empresas de tecnologia – como OpenAI, Anthropic, Cursor e Google – já estão colocando os princípios do sleep-time compute em prática.

A OpenAI, por exemplo, vem usando o conceito no Codex, sua ferramenta voltada para programação, que agora pode reorganizar trechos de código de forma assíncrona na nuvem.

Ao evitar repetições desnecessárias, o processo faz com que o tempo de resposta e os custos caiam.

Já o Cursor, um editor de código com IA integrada, lançou agentes de segundo plano que operam em nuvens paralelas. Os desenvolvedores podem ativá-los para fazer testes, refatorar códigos ou sugerir novos recursos com base no contexto do projeto.

O SDK Claude Code, da Anthropic, também segue essa linha: subprocessos atuam como assistentes invisíveis, cuidando de testes e depuração sem interromper o fluxo principal. No Google, projetos como “Project Naptime” e “Big Sleep” – uma colaboração entre o Project Zero e o DeepMind – também estão explorando esse conceito para identificar falhas de segurança nos códigos.

Com a chegada de sistemas baseados em múltiplos agentes, a capacidade de “pensar com antecedência” pode ser o próximo diferencial competitivo da IA. No futuro, os sistemas mais poderosos não serão apenas os maiores, mas os mais discretos, eficientes e prontos para agir. Mesmo quando estiverem “dormindo”.


SOBRE O AUTOR

Victor Dey é editor de tecnologia e escreve sobre inteligência artificial, ciência de dados, cibersegurança e metaverso. saiba mais