Reddit processa big techs por uso indevido de dados da plataforma no treinamento de IA; veja detalhes

A empresa entrou com ação judicial para impedir uso de conteúdo humano por big techs

Aplicativo do Reddit no celular
O Reddit reúne mais de 416 milhões de usuários semanais. Crédito: imagem criada com auxílio de IA via ChatGPT.

Guynever Maropo 2 minutos de leitura

O fórum online Reddit entrou com uma ação judicial contra quatro empresas acusadas de extrair ilegalmente dados da plataforma e revendê-los a companhias de Inteligência Artificial, como OpenAI e Meta.

O processo foi movido no Tribunal do Distrito Sul de Nova York e tem como alvos as startups SerpApi, Oxylabs, AWMProxy e Perplexity.

Segundo o Federação Nacional dos Trabalhadores em Tecnologia da Informação, o Reddit pede indenização por danos financeiros e a proibição do uso e da comercialização de qualquer material obtido sem autorização. A ação ocorre em meio à crescente disputa entre empresas de tecnologia por dados humanos usados no treinamento de modelos de IA.

A raspagem de dados, conhecida como a prática de coletar automaticamente informações da internet, existe desde o começo da web. O Google construiu seu império com base nessa técnica, usando robôs para mapear páginas e organizar resultados de busca. Com o tempo, outras empresas passaram a raspar dados do próprio Google, criando um ecossistema inicialmente visto como simbiótico.

Com o avanço da IA, esse equilíbrio se rompeu. Plataformas passaram a ser alvo de raspagem em larga escala, muitas vezes sem compensação financeira aos criadores de conteúdo.

Leia mais: Reddit restringe Internet Archive para conter uso de dados por empresas de IA.

Posicionamento da Reddit

O Reddit, que reúne mais de 416 milhões de usuários semanais, decidiu reagir. A empresa considera suas discussões um ativo valioso para o treinamento de sistemas de linguagem natural.

Em 2023, a rede social começou a cobrar pelo acesso aos seus dados e firmou acordos de licenciamento com o Google e a OpenAI.

O Google utiliza o conteúdo do Reddit no treinamento do chatbot Gemini, enquanto a OpenAI o aplica no ChatGPT. Outras empresas, no entanto, optaram por contornar o sistema, utilizando raspadores para extrair informações de forma indevida.

De acordo com o processo, SerpApi, Oxylabs e AWMProxy coletaram bilhões de consultas do Google e empacotaram dados do Reddit para revenda. A Perplexity, uma das compradoras, teria recebido notificação para cessar a prática, mas continuou exibindo resultados com citações ao conteúdo da plataforma, em volume até 40 vezes superior.

Leia mais: Anthropic: Acusação de Violação de Contrato.

O Reddit afirma ter criado postagens de teste, visíveis apenas pelo Google, que surgiram logo depois nos resultados da Perplexity, o que comprovaria a extração indevida.

A empresa busca agora uma liminar permanente e reforça que pretende proteger seu conteúdo contra uso não autorizado, alegando ter investido “dezenas de milhões de dólares” em sistemas anti-raspagem.

Você pode se interessar também:

Enquanto algumas empresas citadas estão sediadas na Europa e na Ásia, a ação marca uma nova etapa na batalha global pelo controle e pela remuneração de dados humanos, o que impulsiona o avanço da Inteligência Artificial.

O Reddit promete seguir adotando medidas legais para resguardar seu conteúdo e manter o equilíbrio entre inovação e direitos autorais digitais.


SOBRE A AUTORA

Jornalista, pós-graduando em Marketing Digital, com experiência em jornalismo digital e impresso, além de produção e captação de conte... saiba mais