Como a internet acabou cheia de links que não dão em lugar nenhum

Pesquisa mostra que um quarto das páginas da web da última década já não está mais acessível

Créditos: M. Faisal Riza/ Alena Butor/ iStock

Hunter Schwarz 2 minutos de leitura

Tem um ditado que diz que “tudo na internet é para sempre”. Mas uma nova pesquisa descobriu que não é bem assim. De acordo com um novo estudo do Pew Research Center, um quarto das páginas da web que existiam entre 2013 e 2023 já não está mais acessível.

Essa chamada “decadência digital” está deixando um monte de links mortos pelo caminho, seja em sites do governo, da mídia de notícias ou da Wikipédia. Isso levanta uma questão importante: no decorrer de uma década e no longo prazo, qual é o custo o da perda de toda uma biblioteca de Alexandria composta por páginas da web?

Para chegar a esse número, os pesquisadores coletaram uma amostra aleatória de quase um milhão de páginas da web do Common Crawl, um serviço de arquivamento da internet, e verificaram se elas ainda estavam acessíveis.

Cerca de 38% das páginas de 2013 estavam inacessíveis; 15% estavam inacessíveis em 2022 e 8% em 2023. Ou seja: embora a obsolescência dos links seja algo que cresce com o tempo, essa situação é um problema até mesmo para sites com apenas um ano de idade.

A Pew definiu como “sites inacessíveis” aqueles que não existem mais em seus servidores de hospedagem (ou seja, os usuários recebem uma mensagem do tipo “404 não encontrado” quando visitam a página).

Os pesquisadores encontraram pelo menos um link quebrado em 54% das seções de “referência” da Wikipédia, em 23% das páginas de notícias e em 21% das páginas do governo dos Estados Unidos.

“Tanto os sites de notícias com alto nível de tráfego quanto aqueles com baixo nível de tráfego têm a mesma probabilidade de conter links quebrados”, escreveram os autores do estudo. “As páginas de governos locais (pertencentes a prefeituras) são particularmente propensas a apresentar links quebrados.”

A deterioração digital ameaça nos deixar com menos informações e com uma noção incompleta da evolução da web.

A pesquisa sugeriu que os sites de redes sociais também apresentam um alto índice de links inativos. Cerca de 20% das postagens não estão mais visíveis publicamente no Twitter (atual X). Dessas mensagens, 60% eram de contas que agora são privadas, estão suspensas ou foram excluídas e 40%, mensagens que foram excluídas de contas que ainda existem.

Os pesquisadores não examinaram o MySpace, mas, mesmo que tentassem, não haveria muito para ver. Em 2019, o site perdeu todo o conteúdo que havia sido carregado antes de 2016.

“A internet é um arquivo incrivelmente vasto da vida contemporânea, com centenas de bilhões de páginas indexadas”, escreveram os autores. “Porém, por mais que os usuários de todo o mundo confiem na web para acessar livros, imagens, artigos de notícias e outros recursos, esse conteúdo às vezes some completamente do mapa.”

O fenômeno geral da deterioração digital ameaça nos deixar com menos informações e com uma noção incompleta da evolução da web. Antes dos computadores pessoais e smartphones, um projeto de pesquisa exigia a visita a uma biblioteca para consultar enciclopédias físicas ou jornais antigos, em papel.

Hoje, as pessoas presumem que a internet será um repositório eterno de conhecimento, disponível com apenas alguns toques em um teclado. Ao que parece, porém, talvez tenhamos muito menos à nossa disposição do que supõe a nossa vã filosofia.


SOBRE O AUTOR