Por que os buscadores com IA falham em citar corretamente os veículos de imprensa?
Estudo revela como buscadores com IA afetam a produção de conteúdos jornalísticos

Ferramentas de busca baseadas em Inteligência Artificial (IA) estão se popularizando rapidamente. Nos Estados Unidos, quase um em cada quatro usuários já substituiu mecanismos tradicionais por soluções generativas. Esses sistemas se apoiam, em grande parte, em conteúdos produzidos por veículos jornalísticos. No entanto, estudos apontam desequilíbrios sérios na forma como acessam, apresentam e citam esse tipo de informação.
Segundo o Columbia Journalism Review, diferentemente das buscas convencionais, que direcionam o usuário às fontes originais, as ferramentas generativas reorganizam os conteúdos e omitem os redirecionamentos, prejudicando os produtores de informação. Esse modelo ameaça a sustentabilidade do jornalismo, ao cortar o tráfego dos sites de origem e mascarar problemas de precisão nas respostas fornecidas.
O Tow Center for Digital Journalism avaliou oito buscadores generativos com acesso em tempo real à internet: ChatGPT Search, Perplexity, Perplexity Pro, DeepSeek, Copilot (Microsoft), Grok 2 e Grok 3 (xAI) e Gemini (Google). A análise incluiu consultas baseadas em trechos de artigos de 20 veículos, com ou sem acordos de licenciamento, e que permitem ou bloqueiam rastreadores via robots.txt.
A pesquisa envolveu 1.600 interações com as plataformas. Foram avaliados três critérios: identificação correta do artigo, da editora e da URL original. Os resultados mostram que mais de 60% das respostas estavam incorretas. O Grok 3 apresentou o pior desempenho, com 94% de respostas equivocadas, enquanto o Perplexity errou em 37% dos casos. Apesar disso, ambos demonstraram elevada confiança em suas respostas, omitindo incertezas e raramente recusando-se a responder.
O estudo aponta que modelos pagos, como Perplexity Pro (US$ 20/mês) e Grok 3 (US$ 40/mês), erram mais do que os gratuitos ao oferecerem respostas definitivas, mesmo sem respaldo em fontes legítimas. Essa confiança injustificada gera risco de desinformação ao usuário.
Cinco dos oito sistemas de IA analisados informam publicamente seus rastreadores, permitindo bloqueios por parte dos veículos. Mesmo assim, os bots acessaram conteúdos não autorizados. O Perplexity Pro, por exemplo, respondeu corretamente a quase um terço das consultas com trechos de veículos que haviam bloqueado o acesso. Já o Perplexity gratuito acertou todos os artigos pagos da National Geographic, que não permite seus rastreadores.
Casos como esses levantam suspeitas de violação ao Protocolo de Exclusão de Robôs, embora esse padrão não seja legalmente obrigatório. Mesmo assim, ele representa uma diretriz ética amplamente aceita no meio digital. Ignorá-lo enfraquece o controle editorial sobre o uso de conteúdo noticioso.
O Copilot, por usar o mesmo rastreador do Bing, foi o único não bloqueado por nenhum veículo, mas também teve o maior número de recusas de resposta. Já o Gemini, mesmo autorizado por metade dos veículos, deu apenas uma resposta completamente correta e evitou temas políticos, citando limitações de precisão.
Além de fornecerem respostas erradas, os buscadores muitas vezes deixaram de citar a fonte original. Em 115 das 200 consultas ao DeepSeek, os créditos foram atribuídos a publicações erradas. Em outros casos, as plataformas direcionaram para versões sindicadas (como Yahoo News ou AOL), ignorando os sites de origem, mesmo quando havia parcerias com os desenvolvedores de IA.
Essas falhas têm impacto direto sobre os veículos jornalísticos. Ao não receberem os devidos créditos nem tráfego, perdem visibilidade e receita. A pesquisa conclui que os sistemas de busca com Inteligência Artificial, ao operarem com baixa transparência e alta confiança, colocam em risco tanto a credibilidade do conteúdo quanto os modelos de negócio do jornalismo digital.