Reddit restringe Internet Archive para conter uso de dados por empresas de IA
Plataforma limita o arquivamento de suas páginas para evitar que conteúdo de usuários seja usado no treinamento de modelos de inteligência artificial sem autorização.

À medida que a disputa para treinar modelos de inteligência artificial se intensifica e a biblioteca de conteúdo do Reddit se torna mais valiosa, a rede social decidiu restringir o acesso do Internet Archive às suas páginas.
Historicamente, a Wayback Machine registrava todas as páginas, comentários e perfis de usuários do Reddit. Agora, a plataforma permitirá o arquivamento apenas da página inicial, que mostra postagens populares e manchetes do dia, excluindo comentários e históricos de postagens.
A medida reflete a postura cada vez mais protetiva do Reddit sobre seus dados. Em maio, a empresa anunciou um acordo com a OpenAI para usar seu conteúdo no treinamento do ChatGPT, após já ter firmado parceria semelhante com o Google. Desde então, bloqueou outros mecanismos de busca de rastrear o site, a menos que fechem acordos financeiros semelhantes.
Segundo relatos, empresas de IA com menos recursos vinham usando o Internet Archive para extrair postagens antigas e treinar modelos de linguagem.
“O Internet Archive presta um serviço à web aberta, mas fomos informados de casos em que empresas de IA violaram políticas de plataformas, incluindo as nossas, e coletaram dados da Wayback Machine. Até que consigam proteger seu site e cumprir essas políticas, estamos limitando parte do acesso para proteger os redditors”, disse o porta-voz Tim Rathschmid.
As ações do Reddit subiram mais de 3% na terça-feira, chegando a US$ 228. No acumulado do ano, a valorização é de 38%.
DISPUTA JUDICIAL E FOCO EM IA
Em junho, o Reddit processou a Anthropic, acusando a criadora do chatbot Claude de coletar dados do site de forma indevida. A empresa afirmou ter bloqueado seus bots após reclamações, mas, segundo o processo, eles continuaram a acessar os servidores mais de 100 mil vezes. A Anthropic nega as acusações.
O movimento contra o Internet Archive ocorre enquanto o Reddit investe em seus próprios produtos de IA. Em dezembro, a empresa lançou o Reddit Answers, ferramenta que resume conversas e postagens para facilitar buscas internas. Segundo a companhia, o recurso já é usado por 6 milhões de pessoas, contra 1 milhão no primeiro trimestre.
A estratégia inclui unificar o buscador interno — que atende 70 milhões de usuários por semana — com o Reddit Answers, desafiando Google e outros mecanismos de busca. “O mundo e a internet estão mudando rapidamente, e acredito que o Reddit tem uma oportunidade única em uma geração”, disse o CEO Steve Huffman. “Conversa e conexão estão se tornando mais valiosas e raras. Em um mundo cada vez mais dominado por algoritmos e automação, a necessidade de vozes humanas nunca foi tão grande.”