O dilema dos publishers: bots de IA estão confundindo o tráfego humano na web
Novo relatório mostra que protocolos estão sendo ignorados e conteúdos copiados em massa

A inteligência artificial está “devorando” a internet, com bots de IA coletando conteúdos de sites sem oferecer nada em troca. Esse é o pano de fundo de vários processos que hoje correm na justiça contra grandes empresas do ramo. Mas, enquanto a disputa jurídica se arrasta, a questão prática continua: o que fazer em relação a esses bots?
Bloqueá-los é uma opção, mas será que funcionaria? Quais tipos de conteúdo correm mais risco de serem copiados e substituídos por respostas de IA? E será que existe mesmo chance de cobrar por esse uso?
Um bom ponto de partida está no relatório mais recente da startup TollBit sobre o estado dos bots. Para editores que já sentem o impacto da IA, o estudo traz números concretos sobre a presença dessas ferramentas no ecossistema de mídia e sobre o ritmo acelerado de crescimento. Embora esse avanço preocupe quem vive de conteúdo, também pode abrir oportunidades.
Pensando nisso, a TollBit vai além de gráficos e estatísticas: defende abertamente que os bots que rastreiam a web deveriam, no mínimo, se identificar ao acessar e copiar conteúdos de sites.
A empresa chegou até a pedir por regulamentação para obrigá-los a isso, depois que um relatório anterior mostrou que bots de empresas como Perplexity, Meta e Google estavam ignorando os protocolos de exclusão – um mecanismo usado por sites para controlar o tráfego de robôs.
A questão, porém, é mais complexa. Alguns bots de IA atuam em nome de usuários (diferente dos de busca ou de treinamento) e, por isso, são tratados como agentes de usuário. Para as empresas de IA, isso os coloca em uma outra categoria: como funcionam como “proxies humanos”, acreditam que deveriam ser tratados como pessoas – e, portanto, não precisariam se identificar como robôs.
A grande dúvida é: quantos desses bots realmente pagam pelo conteúdo que usam?
Na prática, isso torna quase impossível diferenciar tráfego humano real – alguém navegando de verdade – de um robô fazendo a mesma coisa.
Essa confusão dificulta a medição precisa de acessos. A TollBit prevê que o número de visitas “humanas” pode subir artificialmente conforme esses agentes se popularizem – já que será cada vez mais difícil distinguir máquinas de pessoas.
Faz sentido exigir que os bots se identifiquem. Mas, se isso não acontecer, parte do tráfego continuará em uma zona cinzenta: parece humano, mas não é. Esses “falsos humanos” nunca clicam em anúncios. Quando isso ficar evidente, o valor da publicidade online como um todo pode despencar.
OS CONTEÚDOS MAIS COBIÇADOS PELOS BOTS DE IA
Outro ponto revelado pelo relatório é o tipo de conteúdo mais visado pelos bots – ou, em outras palavras, pelas pessoas que usam IA para buscar informações. Embora os números não sejam definitivos, é razoável supor que, se um tema é muito copiado, há grande interesse do público em acessá-lo via motores de IA. Essa informação pode, inclusive, orientar estratégias editoriais.
De longe, a categoria mais acessada é a de conteúdo B2B, seguida por parentalidade, esportes e tecnologia de consumo. O interesse por conteúdos sobre parentalidade, em especial, disparou no último trimestre, indicando que cada vez mais pessoas estão recorrendo a portais de IA para tirar dúvidas sobre o tema.
Para quem produz esse tipo de material – ou qualquer outro altamente visado –, ficam três alertas:
- Seu conteúdo corre alto risco de ser substituído por respostas de IA
- Isso significa que ele tem valor para empresas de inteligência artificial
- Esses dados podem ser usados como argumento em negociações de licenciamento ou até em ações judiciais
Claro, não é tão simples assim conseguir que um grande provedor de IA pague. A OpenAI, que lidera nesse tipo de acordo, assinou apenas algumas dezenas até agora. E processos judiciais, além de demorados, custam caro.

Se você tem um site sobre parentalidade, não vai simplesmente parar de produzir conteúdo para pais, então você tem uma escolha: bloquear os bots ou deixá-los rastrear suas páginas para garantir sua presença nas respostas de IA.
Embora o tráfego de referência permaneça insignificante (já estamos efetivamente no "ChatGPT Zero"), existem intangíveis, principalmente a presença da marca, que uma resposta de IA proporciona. No entanto, não se pode construir um negócio com base em intangíveis, e isso deixa a outra opção: bloquear, ou melhor, redirecionar os bots para um paywall.
A ILUSÃO DE CONTROLE
A grande dúvida, que o relatório não responde, é: quantos desses bots de IA realmente pagam pelo conteúdo que usam? A ausência de resposta sugere que pouquíssimos – afinal, é fácil demais obter o mesmo material por outras vias.
O estudo mostra que as empresas de IA dispõem de meios sofisticados de usar retransmissores, sistemas de terceiros e diferentes tipos de bots para extrair conteúdo. E o “status cinzento” dos agentes de usuário de navegadores comuns só torna o cenário ainda mais nebuloso. As maneiras de acessar conteúdo bloqueado são inúmeras.
Por isso, a TollBit insiste que os bots devem ser obrigados por lei a se identificar. É difícil imaginar que empresas de IA vão se autorregular em nome de outro setor – no caso, o de mídia – sem algum tipo de pressão regulatória.