Reddit restringe Internet Archive para conter uso de dados por empresas de IA

Plataforma limita o arquivamento de suas páginas para evitar que conteúdo de usuários seja usado no treinamento de modelos de inteligência artificial sem autorização.

Reddit restringe Internet Archive para conter uso de dados por empresas de IA
Créditos: Brett Jordan via Unsplash

Chris Morris 2 minutos de leitura

À medida que a disputa para treinar modelos de inteligência artificial se intensifica e a biblioteca de conteúdo do Reddit se torna mais valiosa, a rede social decidiu restringir o acesso do Internet Archive às suas páginas.

Historicamente, a Wayback Machine registrava todas as páginas, comentários e perfis de usuários do Reddit. Agora, a plataforma permitirá o arquivamento apenas da página inicial, que mostra postagens populares e manchetes do dia, excluindo comentários e históricos de postagens.

A medida reflete a postura cada vez mais protetiva do Reddit sobre seus dados. Em maio, a empresa anunciou um acordo com a OpenAI para usar seu conteúdo no treinamento do ChatGPT, após já ter firmado parceria semelhante com o Google. Desde então, bloqueou outros mecanismos de busca de rastrear o site, a menos que fechem acordos financeiros semelhantes.

Segundo relatos, empresas de IA com menos recursos vinham usando o Internet Archive para extrair postagens antigas e treinar modelos de linguagem.

“O Internet Archive presta um serviço à web aberta, mas fomos informados de casos em que empresas de IA violaram políticas de plataformas, incluindo as nossas, e coletaram dados da Wayback Machine. Até que consigam proteger seu site e cumprir essas políticas, estamos limitando parte do acesso para proteger os redditors”, disse o porta-voz Tim Rathschmid.

As ações do Reddit subiram mais de 3% na terça-feira, chegando a US$ 228. No acumulado do ano, a valorização é de 38%.

DISPUTA JUDICIAL E FOCO EM IA

Em junho, o Reddit processou a Anthropic, acusando a criadora do chatbot Claude de coletar dados do site de forma indevida. A empresa afirmou ter bloqueado seus bots após reclamações, mas, segundo o processo, eles continuaram a acessar os servidores mais de 100 mil vezes. A Anthropic nega as acusações.

O movimento contra o Internet Archive ocorre enquanto o Reddit investe em seus próprios produtos de IA. Em dezembro, a empresa lançou o Reddit Answers, ferramenta que resume conversas e postagens para facilitar buscas internas. Segundo a companhia, o recurso já é usado por 6 milhões de pessoas, contra 1 milhão no primeiro trimestre.

A estratégia inclui unificar o buscador interno — que atende 70 milhões de usuários por semana — com o Reddit Answers, desafiando Google e outros mecanismos de busca. “O mundo e a internet estão mudando rapidamente, e acredito que o Reddit tem uma oportunidade única em uma geração”, disse o CEO Steve Huffman. “Conversa e conexão estão se tornando mais valiosas e raras. Em um mundo cada vez mais dominado por algoritmos e automação, a necessidade de vozes humanas nunca foi tão grande.”


SOBRE O AUTOR

Chris Morris é jornalista, escritor, editor e apresentador especializado em tecnologia, games e eletrônicos. saiba mais