Pesquisa aponta que conteúdo de IA de baixa qualidade está entupindo a web

Novo estudo revela a dimensão do impacto da IA generativa na internet

Crédito: Freepik

Chris Stokel-Walker 2 minutos de leitura

A revolução da IA generativa não dá sinais de desaceleração. Recentemente, a OpenAI lançou o modelo GPT-4.5 para assinantes do ChatGPT, enquanto concorrentes como a Anthropic também anunciaram suas próprias atualizações – incluindo o Claude 3.7 Sonnet, apresentado no fim do mês passado. O que resultou em mais conteúdo gerado por IA.

Mas, embora essas ferramentas tenham tornado a criação de conteúdo mais acessível, um novo estudo sugere que elas estão transformando drasticamente o conteúdo que consumimos na internet.

Publicado no repositório arXiv da Universidade Cornell, nos EUA, o estudo analisou mais de 300 milhões de documentos, incluindo reclamações de consumidores, comunicados de imprensa de empresas, anúncios de empregos e mensagens publicadas pela ONU.

Os resultados indicam que a web está sendo inundada por conteúdo gerado por IA – muitas vezes, sem que os leitores percebam.

Os pesquisadores acompanharam a evolução do uso dessas ferramentas entre janeiro de 2022 e setembro de 2024. “Queríamos entender até que ponto as pessoas estão utilizando IA generativa”, explica Yaohui Zhang, pesquisador da Universidade de Stanford e um dos coautores do estudo.

Os resultados mostram um impacto significativo com a chegada do ChatGPT. Antes do seu lançamento, em 30 de novembro de 2022, apenas 1,5% dos conteúdos analisados apresentavam indícios de terem sido criados ou alterados por IA. Nos meses seguintes, esse número disparou, chegando a ser até 10 vezes maior em algumas categorias.

As reclamações de consumidores foram uma das áreas mais afetadas, com um aumento expressivo no uso da IA para redigir textos. O mesmo aconteceu com os comunicados de imprensa, que passaram a ter cada vez mais sinais de interferência da inteligência artificial após a popularização do ChatGPT.

EXCESSO DE CONTEÚDO GERADO POR IA É PREJUDICIAL?

Para identificar textos gerados por IA, Zhang e sua equipe desenvolveram um método estatístico próprio, em vez de usar ferramentas de detecção convencionais.

Eles analisaram padrões linguísticos – como a frequência de determinadas palavras – comparando textos escritos antes do lançamento do ChatGPT com aqueles já confirmados como tendo sido gerados ou alterados por grandes modelos de linguagem.

a web está sendo inundada por conteúdo gerado por IA – muitas vezes, sem que os leitores percebam.

Os resultados foram validados com amostras conhecidas de textos humanos e artificiais, com uma taxa de erro inferior a 3,3%, indicando alta precisão na identificação do conteúdo gerado por IA.

Assim como outros especialistas, os pesquisadores alertam para as consequências desse crescimento descontrolado da IA na produção de textos. Eles temem que o excesso de conteúdo gerado artificialmente prejudique a originalidade e a qualidade da informação disponível online.

“A IA generativa pode acabar limitando a criatividade humana”, conclui Zhang.


SOBRE O AUTOR

Chris Stokel-Walker é um jornalista britânico com trabalhos publicados regularmente em veículos, como Wired, The Economist e Insider saiba mais