O teste que pode definir o futuro da IA agêntica

Gigante de dados corporativos apresenta uma nova forma de medir o quão inteligente uma IA realmente é

O teste que pode definir o futuro da IA agêntica
Créditos: Denis-Art via Getty images

Victor Dey 7 minutos de leitura

Nos últimos cinco anos, os avanços no processamento de dados e no raciocínio de sistemas de inteligência artificial levaram empresas e indústrias a buscar modelos cada vez maiores e benchmarks mais ambiciosos. Agora, com a IA agêntica despontando como a provável sucessora da IA generativa, cresce a demanda por agentes mais inteligentes e sofisticados. O problema é que, na maioria das vezes, essa “inteligência” ainda é medida pelo tamanho do modelo ou pela quantidade de dados usados no treinamento.

A Databricks, especialista em análise de dados e inteligência artificial, argumenta que essa corrida por modelos gigantes ignora um ponto essencial: mais importante que o que um modelo “sabe” é como ele se comporta quando colocado para trabalhar no mundo real. Jonathan Frankle, cientista-chefe de IA da empresa, reforça que a confiança e o retorno sobre investimento vêm do desempenho na produção – e não apenas do volume de informações que o modelo carrega.

Ao contrário de softwares tradicionais, que entregam resultados determinísticos, modelos de inteligência artificial produzem respostas probabilísticas. “A única coisa que você pode realmente medir em um sistema de IA é o comportamento. Não dá para abrir e ver por dentro – não existe equivalente ao código-fonte”, disse Frankle à Fast Company. Ele reconhece que benchmarks públicos ajudam a avaliar capacidades gerais, mas alerta que muitas empresas depositam confiança excessiva neles.

Para Frankle, o mais importante é realizar avaliações rigorosas com dados específicos do negócio, medindo a qualidade, refinando resultados e guiando estratégias de aprendizado por reforço. “Hoje, muita gente lança agentes depois de escrever um prompt, fazer alguns testes, achar que ‘parece bom’ e seguir em frente. Nunca faríamos isso com software – e não deveríamos fazer com IA também”, afirma.

Frankle explica que, no caso dos agentes de IA, as avaliações substituem vários processos tradicionais de engenharia, como reuniões técnicas, documentos de design, testes unitários e de integração. Não existe revisão de código porque, afinal, não há código por trás de um agente e prompts não são código. Por isso, segundo ele, avaliações são essenciais e precisam estar no centro de qualquer implantação responsável.

Essa mudança de foco – de “crença” para “comportamento” – sustenta duas grandes inovações que a Databricks apresentou este ano: a Otimização Adaptativa em Tempo de Teste (TAO) e os blocos de agente. Juntas, essas tecnologias buscam colocar a avaliação comportamental logo no início do processo de desenvolvimento de IA corporativa, em vez de deixá-la para o fim.

O COMPORTAMENTO IMPORTA MAIS QUE O CONHECIMENTO BRUTO

Avaliações tradicionais costumam se basear em benchmarks e conjuntos de dados rotulados oriundos de pesquisas acadêmicas. Embora úteis, eles raramente refletem as decisões específicas e complexas que empresas enfrentam no dia a dia. Um agente, por exemplo, pode precisar escrever consultas SQL em um dialeto proprietário, interpretar documentos regulatórios com precisão ou extrair campos específicos de dados não estruturados e confusos.

Naveen Rao, vice-presidente de IA da Databricks, afirma que esses desafios são essencialmente comportamentais e exigem feedback contínuo, métricas adaptadas ao contexto e ajustes frequentes – não apenas mais conhecimento genérico.

“O conhecimento geral pode ajudar no consumo básico, mas não resolve as necessidades corporativas. Empresas precisam se diferenciar, e isso exige explorar seus próprios ativos para competir”, disse ele à Fast Company. “Interação e feedback são cruciais para entender o que importa para um público específico, quando apresentar a informação e como formatá-la dependendo do contexto. Isso requer ajustes sob medida – seja via engenharia de contexto, seja alterando os pesos da rede neural.”

Segundo ele, para isso é essencial ter uma estrutura robusta de aprendizado por reforço e uma interface que capture feedback de forma eficiente. Essa é justamente a proposta da TAO: aproveitar dados que a própria empresa já gera para melhorar o desempenho do modelo, escalando qualidade via poder computacional e evitando custos altos com rotulagem manual.

Enquanto muitos tratam a avaliação como um passo final, a Databricks a coloca no centro

Enquanto muitos tratam a avaliação como um passo final, a Databricks a coloca no centro. A TAO processa múltiplas respostas para uma mesma entrada, avalia cada uma com “juízes” automáticos ou personalizados e usa as pontuações para ajustar o modelo. O custo de inferência permanece igual ao do modelo original, já que o trabalho pesado de computação acontece apenas no ajuste – e não a cada consulta.

“O desafio é fazer o modelo ter um bom desempenho na sua tarefa específica, usando o conhecimento e os dados que você já tem, dentro dos limites de custo e velocidade”, afirma Frankle. “A TAO pode transformar modelos de código aberto mais baratos em soluções muito mais potentes usando dados comuns no ambiente corporativo.”

Segundo a Databricks, a TAO melhorou significativamente variantes do modelo Llama, aproximando seu desempenho de sistemas proprietários como o GPT-4o e o o3-mini em tarefas como geração de SQL e respostas a perguntas sobre documentos – mantendo custos baixos. Em um teste com 175 mil prompts, o Llama 3.3 70B ganhou 2,4 pontos e o Llama 3.1 70B subiu quatro pontos em benchmarks, reduzindo a distância para os líderes.

Para complementar, a Databricks lançou os blocos de agentes, integrados à sua Data Intelligence Platform. Eles permitem criar agentes personalizados com dados internos, ajustar pesos da rede neural e desenvolver avaliadores baseados em regras específicas do negócio. A ferramenta automatiza boa parte do processo: as equipes definem o objetivo, conectam as fontes de dados e o sistema gera dados de avaliação, cria juízes e testa otimizações.

Os clientes podem priorizar qualidade ou custo, permitindo iteração mais rápida com supervisão humana e menos ajustes manuais.

“Essa tecnologia foi criada para que especialistas de negócio, mesmo sem conhecimento de programação, possam moldar e aprimorar agentes de IA. Eles podem aprovar ou rejeitar respostas com um clique, enquanto usuários técnicos realizam ajustes mais complexos. Assim, os agentes refletem os objetivos e o conhecimento da empresa, além de se adaptarem rapidamente às mudanças”, explica Rao.

Resultados iniciais mostram o impacto: a AstraZeneca processou mais de 400 mil documentos clínicos e extraiu dados estruturados em menos de uma hora. Já a Flo Health dobrou sua taxa de precisão médica em relação a modelos comerciais, mantendo altos padrões de privacidade.

DE BENCHMARKS PARA DADOS REAIS DE NEGÓCIOS

O foco em comportamento é prático, mas não resolve tudo. Especialistas alertam que ajustes automatizados podem reforçar vieses ou permitir que erros passem despercebidos.

“Em alguns casos, conseguimos verificação automática confiável, como em demonstrações de teoremas. Mas, em muitos outros, o julgamento humano é indispensável”, afirma Phillip Isola, professor do Instituto de Tecnologia de Massachusetts. “Se a IA se autoavalia e erra, pode sair totalmente do controle.”

IA autoaperfeiçoável traz riscos de segurança, pois é menos controlada e pode desenvolver estratégias inesperadas

Ele ressalta que a IA autoaperfeiçoável traz riscos de segurança, pois é menos controlada e pode desenvolver estratégias inesperadas com consequências negativas. Além disso, empresas podem “treinar para o teste”, manipulando benchmarks. “O segredo é atualizar as avaliações anualmente, com problemas novos que o modelo nunca tenha visto.”

Frankle reforça que evitar rotulagem humana não significa dispensar supervisão. “A TAO é apenas um método de ajuste fino usando dados que as empresas já possuem”, diz ele, lembrando que, em áreas sensíveis, salvaguardas continuam sendo essenciais.

Outros especialistas alertam que eficiência não garante alinhamento de valores – e que ainda não temos métodos claros para medir isso. “Para tarefas bem definidas, conseguimos incluir feedback humano, mas para desafios criativos ou abertos, ainda não sabemos como fazer isso de forma eficaz. A interpretabilidade dos modelos ainda está engatinhando”, diz Matt Zeiler, CEO da Clarifai.

Ele defende que a combinação de benchmarks gerais e específicos precisa evoluir, já que pontuações semelhantes nem sempre se traduzem em desempenho equivalente na prática. “Essa ‘sensação’ não aparece nos testes, mas teremos que descobrir como medi-la – ou aceitar que é algo subjetivo, ligado à preferência pessoal”, afirma Zeiler.

Se os resultados da Databricks se confirmarem, empresas podem mudar sua estratégia de IA, investindo mais em ciclos de feedback, pipelines de avaliação e governança do que em modelos maiores e bancos de dados massivos. A inteligência artificial deixaria de ser vista como um produto final e passaria a ser tratada como um sistema vivo, que evolui com o uso.

“O futuro da IA não está em modelos cada vez maiores, mas em sistemas adaptativos e agentes capazes de aprender e raciocinar com dados corporativos”, conclui Rao. “É aí que infraestrutura e inteligência se encontram: você precisa de orquestração, dados, avaliação e otimização trabalhando em conjunto.”


SOBRE O AUTOR

Victor Dey é editor de tecnologia e escreve sobre inteligência artificial, ciência de dados, cibersegurança e metaverso. saiba mais