Rastreadores de IA sobrecarregam sites a ponto de quase deixá-los fora do ar
Sites se dizem vítimas do apetite voraz das IAs por informações – mas empresas como Anthropic e OpenAI afirmam que seus bots não são os culpados
Em julho, Kyle Wiens percebeu que havia algo de errado quando sua equipe da iFixit, um site especializado em tutoriais de conserto de itens domésticos, começou a receber notificações de tráfego elevado.
A equipe de desenvolvimento começou a monitorar a ferramenta que acompanha o número de visitantes e, segundo Wiens, “ficou claro que o sistema estava sobrecarregado”.
Ao investigar mais a fundo, descobriram que o site havia recebido quase um milhão de acessos em apenas 24 horas – um número atipicamente alto. Eles identificaram a origem do problema: um rastreador da Anthropic, empresa responsável pelo chatbot Claude, que estava em busca de dados para treinamento.
Wiens não está sozinho: vários sites começaram a tomar medidas para bloquear esses rastreadores, tentando evitar o impacto negativo de serem bombardeados com solicitações. De acordo com uma análise recente do grupo de pesquisadores de IA Data Provenance Initiative (DPI), cada vez mais sites estão adotando restrições a esses softwares.
Segundo a DPI, cerca de um em cada quatro dos domínios mais acessados por rastreadores já impuseram algum tipo de restrição. E as redes sociais estão cheias de reclamações sobre o aumento de tráfego causado por esse tipo de bot.
Um dos que manifestou sua preocupação publicamente foi Edd Coates. Ele administra o Game UI Database, um banco de dados que reúne detalhes sobre interfaces de jogos, criado como uma ferramenta de consulta. O site foi relançado no início de agosto e rapidamente atraiu um grande volume de visitantes.
Mas, algumas semanas depois, seu desempenho caiu drasticamente, ficando extremamente lento. “Achei estranho, porque o número de visitantes era cerca de um quarto do que tivemos no relançamento”, lembra Coates. “Mesmo assim, o site estava mais lento.”
Ele e seu desenvolvedor verificaram os registros do servidor e encontraram a causa do problema: um rastreador da OpenAI estava sobrecarregando o sistema. “Eles estavam acessando o site de maneira absurda, cerca de 200 vezes por segundo”, afirma Coates.
CONVIVÊNCIA FORÇADA
A desenvolvedora reconhece que seu rastreador GPTBot visitou o Game UI Database, mas contesta a frequência relatada, alegando que, de acordo com seus dados, o número de acessos por segundo foi em torno de três.
“Damos aos administradores de sites a opção de usar ferramentas padrão para gerenciar o acesso aos rastreadores. Usando o arquivo robots.txt, eles podem definir intervalos de tempo para reduzir a carga nos seus sistemas, limitar o acesso a determinadas páginas ou diretórios ou bloquear o rastreador por completo”, explica um porta-voz da OpenAI.
“Paramos o acesso ao site assim que eles atualizaram as instruções no robots.txt para o nosso bot, e nosso sistema as reconheceu e respeitou”, acrescentou.
Para alguns, isso reflete a realidade atual, na qual empresas de inteligência artificial estão constantemente em busca de dados para treinar seus modelos. Wiens é pragmático quanto a operar um site em 2024. “Todas essas ferramentas de IA estão por aí, acessando tudo e todos”, diz ele.
Já Coates está menos conformado com essa nova realidade. “Isso mostra que eles não se importam”, afirma. “No fim das contas, só se preocupam consigo mesmos e com seus lucros.”
um em cada quatro dos domínios mais acessados por rastreadores já impuseram algum tipo de restrição.
Wiens compartilha dessa preocupação, mas acredita que a solução depende de ambas as partes. “Precisamos encontrar uma forma de coexistir com essas ferramentas de IA”, defende ele. “Não acho que devemos, ou possamos, pará-las. Mas, se elas extraem o conteúdo e o reutilizam sem dar o devido crédito à fonte original, isso é um problema sério.”
A crescente quantidade de relatos preocupa outros profissionais, cujas fontes de renda podem ser prejudicadas pela ascensão das inteligências artificiais. “Eles acham que tudo está disponível para ser usado”, critica Reid Southen, artista conceitual que tem sido um crítico ativo das empresas de IA no Twitter (atual X).
“Ninguém está ganhando com isso”, conclui Coates. “No fim, todos saem perdendo.”