O arquivo da internet vai sobreviver ao tempo?

Pressões legais, bloqueios de publishers e custos crescentes colocam em risco o projeto que salvou mais de um trilhão de páginas da internet

30 anos do Internet Archive
Créditos: Wayback Machine/ Beatrice Murch/ Wikimedia Commons/ Jing Anthony/ Logan Voss/ Unsplash

Jared Newman 7 minutos de leitura

Se você pudesse voltar no tempo para 1996 com um pen drive de 2 TB, conseguiria armazenar toda a World Wide Web dentro dele. Claro, esse tipo de armazenamento não existia nos anos 1990, então as coisas nunca foram tão simples para o Internet Archive.

A organização sem fins lucrativos, que completa três décadas este ano, passou de fazer cópias da web em unidades de fita para armazenar mais de um trilhão de páginas da história da internet em data centers espalhados pelo mundo.

Usando sua Wayback Machine, qualquer pessoa pode revisitar como era uma página da web no passado. Isso significa navegar por antigos sites do GeoCities, ver o código de conduta original do Google – da época em que ainda dizia “Don’t Be Evil”(não seja mau) – ou consultar indicadores sobre mudanças climáticas da Agência de Proteção Ambiental dos EUA antes de serem removidos pelo governo Trump.

Tudo isso se soma ao vasto acervo digital do arquivo, que inclui gravações de shows ao vivo, e-books em domínio público e coleções de jogos esquecidos do DOS. Cerca de dois milhões de pessoas acessam seus recursos diariamente.

Leia mais: O Internet Archive preserva a memória da internet. Agora você pode ver isso ao vivo

“Queremos tudo”, afirma Brewster Kahle, fundador e presidente do Internet Archive. “Queremos todas as obras públicas produzidas pelos seres humanos. Então, se não temos algo, queremos ter.”

Mas, embora o Internet Archive basicamente não tenha mudado ao longo dos anos, a própria internet está se transformando de maneiras que ameaçam sua missão. Publicadores online começaram a bloquear a Wayback Machine por medo de que empresas de IA usem esse material para treinamento de modelos.

logotipo do site Internet Archive

Uma batalha judicial com editoras terminou com a organização pagando um acordo e removendo mais de 500 mil livros do acervo. Ao mesmo tempo, o custo para armazenar a pegada digital da humanidade continua aumentando, à medida que a demanda dos data centers de IA encarece memória e armazenamento.

Tudo isso faz Kahle olhar com nostalgia para os tempos anteriores às disputas com editoras, gigantes de tecnologia e o sistema jurídico. “Temos que continuar tentando fazer uma biblioteca funcionar, mesmo vivendo um momento muito difícil para as bibliotecas”, diz.

Mas o Internet Archive não serve apenas para acessar páginas antigas da web – o que é importante por si só. Ele também funciona como um repositório de informação e cultura que qualquer pessoa pode acessar, baixar e reutilizar. Num mundo em que o conteúdo digital é cada vez mais licenciado, e não possuído, isso parece algo que vale a pena preservar.

COMO FUNCIONA O ARQUIVO

No início, a Wayback Machine era rudimentar: dependia de automações simples para capturar o código de cada página e preservar o que estava publicado naquele momento. Com o tempo, tornou-se muito mais sofisticada, com novos mecanismos de rastreamento projetados para acompanhar a crescente complexidade da web moderna.

Hoje, a Wayback Machine tira “fotografias” de cerca de um bilhão de URLs por dia. Mantém cópias de mais de um trilhão de páginas e adiciona aproximadamente 100 terabytes de novos dados diariamente. Ainda assim, Kahle diz que a Wayback Machine representa apenas cerca de 60% dos dados armazenados.

O restante vem de coleções digitais que incluem programas de rádio, podcasts, aplicativos móveis descontinuados, jogos DOS, softwares em CD-ROM, pesquisas científicas públicas, revistas antigas digitalizadas, programas clássicos de TV, telejornais históricos, documentos convertidos de microfichas e muito mais.

A técnica Lan Zhu digitaliza um manuscrito no arquivo da internet
A técnica Lan Zhu digitaliza um manuscrito no arquivo da internet (Crédito: Internet Archive)

Apesar da escala gigantesca, manter o Internet Archive funcionando continua sendo um esforço surpreendentemente humano. Embora o sistema tenha dezenas de milhares de processos automatizados, seus recursos são limitados e exigem priorização constante, explica Mark Graham, diretor da Wayback Machine.

“Parte do meu trabalho diário é prestar atenção nesse processo, conversando, analisando o que estamos arquivando e talvez o que não estamos arquivando”, afirma.

Leia mais: Reddit restringe Internet Archive para conter uso de dados por empresas de IA

O Internet Archive também não trabalha sozinho. A organização mantém parcerias com mais de 1,4 mil instituições – incluindo bibliotecas, universidades e museus – que ajudam a decidir o que merece ser preservado em determinado momento. Além disso, opera um serviço pago chamado Archive-It, voltado a organizações que desejam manter seus próprios acervos digitais.

Usuários individuais também podem arquivar páginas manualmente, via formulário online ou extensão de navegador, além de enviar arquivos para as coleções digitais.

AS AMEAÇAS À PLATAFORMA

Durante a maior parte de sua existência, o Internet Archive operou sem grandes conflitos. Isso começou a mudar nos últimos anos. Para a Wayback Machine, a própria web ficou mais difícil de arquivar.

O Archive não salva artigos protegidos por paywall, o que já exclui grandes volumes de conteúdo dos principais publishers. Alguns desses publishers também começaram a bloquear o acesso dos robôs do arquivo para evitar raspagem de dados por empresas de IA.

Segundo o Nieman Lab, 241 sites de notícias bloqueavam explicitamente pelo menos um dos robôs de rastreamento do Internet Archive em janeiro, muitos pertencentes ao conglomerado USA Today.

Usando a Wayback Machine, qualquer pessoa pode revisitar como era uma página da web no passado.

O jornal francês "Le Monde" também bloqueou o serviço, enquanto o "The Guardian" retirou seus artigos da interface principal da Wayback Machine. O Reddit adotou medida semelhante no ano passado.

Graham afirma que o Archive usa diferentes táticas para afastar raspadores de IA, mas reconhece que isso exige “cuidados e manutenção quase constantes”.

Para Jack Cushman, diretor do Laboratório de Inovação da Biblioteca de Harvard, publishers provavelmente são indiferentes ao trabalho dos arquivistas diante de ameaças mais imediatas, como o uso indevido de conteúdo por IA ou a sobrecarga de servidores.

“O resultado é que as portas estão se fechando, e acabamos ficando de fora por tabela, quando eles nem estavam pensando em nós para começo de conversa”, diz.

Estação de digitalização de filmes do Internet Archive
Estação de digitalização de filmes (Crédito: Internet Archive)

A IA também cria outro problema: o aumento dos custos de armazenamento. Segundo Kahle, o preço dos discos rígidos usados pelo Internet Archive já triplicou ou quadruplicou devido à demanda gerada pelos data centers de IA.

Ainda assim, Cushman considera o Archive um recurso indispensável – quase um “monólito benevolente” para arquivistas. Há até certo espírito lúdico no projeto: o site oferece, por exemplo, coleções jogáveis de videogames portáteis LCD antigos.

Mas as dificuldades atuais também o fazem desejar que existam mais organizações fazendo algo parecido. “É diferente de tudo o que temos”, diz. “Por isso existe uma mistura de gratidão, por termos tido a sorte de isso existir, e apreensão, porque existe apenas um.”

O FUTURO DO ARQUIVO DA HUMANIDADE

Apesar dos problemas, Kahle vê a IA como oportunidade para a organização. Pesquisadores já usam essas ferramentas para interpretar temas recorrentes em telejornais russos, por exemplo, e o Internet Archive vem usando IA para acelerar digitalização e tradução de conteúdo.

Mas essas oportunidades estão migrando cada vez mais para fora dos Estados Unidos, onde há mais segurança jurídica sobre o que bibliotecas podem coletar e digitalizar.

A Comissão Europeia, por exemplo, está promovendo a ideia de IA voltada ao bem público, apoiando ferramentas direcionadas a desafios específicos, como clima e saúde.

edifício sede do Internet Archive
Sede do Internet Archive em São Francisco, na Califórnia (Crédito: Internet Archive)

O Internet Archive Europe, organização separada da qual Kahle faz parte do conselho, apoia uma ferramenta de código aberto chamada ClimateGPT, que aplica grandes modelos de linguagem à pesquisa climática.

Na visão de Kahle, as pessoas querem que suas obras sejam lidas e preservadas. Também querem informação de qualidade e fácil acesso, razão pela qual o Internet Archive está sendo usado mais do que nunca.

Leia mais: Prepare o bolso: escassez de memória RAM pode encarecer celulares e laptops

E embora a organização tenha nascido da ideia de centralizar o conhecimento do mundo, agora também promove conferências sobre formas de descentralizar a web novamente. Ainda é cedo, mas Kahle acredita que novos modelos de negócio podem recuperar parte do que parecia possível há 30 anos.

“Vamos construir sistemas que apoiem comunidades”, afirma. “Vamos criar ferramentas para participação. Vamos construir a biblioteca da democracia com todas as obras que podem e devem ser compartilhadas, para que todos possamos construir sobre um patrimônio comum de informação.”


SOBRE O AUTOR

Jared Newman é jornalista freelancer de tecnologia há mais de 15 anos e contribui regularmente para a Fast Company, PCWorld e TechHive. saiba mais