Que fase, Facebook. Após apagão e queda nas ações, empresa se explica

Crédito: Fast Company Brasil

Fast Company Brasil 9 minutos de leitura

No mesmo dia do apagão de cerca de seis horas que abalou suas estruturas, sua imagem e também a rotina de bilhões de usuários pelo mundo, o Facebook buscou explicar o que levou suas plataformas mais populares a ficarem fora de operação, um acontecimento que se desdobrou em discussões que giraram entre a dependência que as pessoas têm das plataformas digitais a preocupações relativas a cibersegurança. Depois, na manhã seguinte, a companhia atualizou sua resposta pública para o problema que levou tráfego para outras redes sociais, gerou inúmeros memes e até influenciou negativamente no valor de suas ações. 

Para quem esteve fora do planeta na segunda-feira 04 – ou não acompanhou noticiário da mídia global, qualquer que seja o meio –, Facebook, Messenger, Instagram e WhatsApp ficaram fora do ar devido a uma impressionante e extensa falha tecnológica – e não por um ataque hacker, como alguns chegaram a pensar. 

As equipes de engenharia da empresa, conforme relatado pelo Facebook na fatídica noite de segunda-feira, identificaram alterações de configuração dos roteadores centrais, que coordenam o tráfego de rede entre os data centers, causando uma interrupção. O problema provocou um efeito cascata na maneira como os data centers se comunicam e isso interrompeu de tal forma seus serviços que, para quem dependia do Facebook para tocar suas atividades, restou lamentar as horas perdidas.

O Facebook mesmo se viu num apuro peculiar. Além do prejuízo óbvio para suas operações, funcionários que foram convocados para resolver a falha nos centros de dados não puderam adentrar as instalações, num primeiro momento, por não conseguirem fazer login no sistema de acesso. Depois, tiveram de enfrentar um complexo sistema de segurança para poder colocar as plataformas de volta ao ar. Os detalhes desse trabalho todo foram relatados no segundo comunicado da companhia a respeito do apagão, divulgado nesta terça-feira – leia mais abaixo. 

No primeiro informe, o Facebook ressaltou que “não houve atividade maliciosa” por trás do incidente. “Também não temos evidências de que dados dos usuários tenham sido comprometidos como resultado desse tempo de inatividade”, reportou a companhia.

Sabedora que pessoas e negócios no mundo todo utilizam suas operações para conexão com seus consumidores e viabilizar vendas de produtos e serviços, a corporação explicou que compreende o impacto que interrupções como as da segunda-feira têm na vida dos usuários. “Pedimos desculpas a todos os que foram afetados e estamos trabalhando para entender mais sobre o que aconteceu para que possamos continuar a tornar nossa infraestrutura mais resiliente”, escreveu Santosh Janardhan, vice-presidente de infraestrutura.

Facebook Datahall (Crédito: divulgação)

TERREMOTO 

Desculpas podem não bastar. O Procon de São Paulo informou nesta terça, em seu perfil no Facebook, que irá notificar o WhatsApp por prejudicar consumidores e empresas. O órgão alega que apenas um evento do porte de um terremoto isentaria a empresa de responsabilidade, segundo a Folha de S. Paulo. O Procon calcula que a multa pode chegar a R$ 10,7 milhões por eventuais danos morais e materiais.

Procurado pela Fast Company Brasil, o Facebook não informou o tamanho da base do WhatsApp no país. A operação brasileira revelou apenas que 147 milhões de pessoas usam o Facebook mensalmente por aqui. Estimativa do Statista no início do ano indica que no WhatsApp estão 99 milhões de usuários ativos mensalmente no país. Segundo esses dados, somos o segundo mercado da plataforma no mundo, atrás da Índia. No Instagram, de acordo com números de julho do Statista, são 110 milhões os brasileiros ativos na rede. 

Nos EUA o Facebook já sabe quanto o apagão lhe custou na bolsa de valores americana, ao menos no dia exato do incidente. As ações caíram 4,98% na segunda-feira após a interrupção dos serviços e também por conta de acusações de uma ex-funcionária em entrevista para a CBS News. No dia anterior ao apagão, Frances Haugen declarou ao programa 60 Minutes que a empresa coloca os lucros acima da segurança.

Ela forneceu ao Wall Street Journal, entre outros dados, documentos que indicariam que o Facebook  tinha conhecimento de relatório apontando como o Instagram teria impacto negativo na vida de adolescentes devido a questões de autoestima. 

ROTEIRO DE FILME 

Na terça-feira, o vice-presidente de infraestrutura do Facebook voltou a assinar um comunicado sobre a falha que deixou as plataformas da empresa fora do ar. Janardhan enfatizou a explicação dada na véspera, porém foi ainda mais didático: a interrupção foi provocada pelo sistema que gerencia o backbone global. O backbone é uma rede que foi construída pelo Facebook para “conectar todas as nossas instalações de computação, que consistem em dezenas de milhares de quilômetros de cabos de fibra óptica cruzando o globo e conectando todos os nossos centros de dados”.

A narrativa dos episódios de Janardhan poderia virar roteiro de filme, mostrando como uma sequência de erros pode causar um transtorno de ordem mundial quando se trata de serviços digitais tão populares quanto os do Facebook. Esse segundo comunicado da companhia deixa isso claro. 

Janardhan contou que alguns data centers são prédios enormes que abrigam milhões de máquinas que armazenam dados e executam pesadas cargas computacionais para manter as plataformas funcionando. Outros são instalações menores que conectam os roteadores do backbone à internet.

“Quando você abre um de nossos aplicativos e carrega seu feed ou mensagens, a solicitação de dados do app viaja do dispositivo para a instalação mais próxima, que, então, se comunica diretamente através de nosso backbone para um data center maior. É aí que as informações necessárias para seu aplicativo são recuperadas e processadas e enviadas de volta pela rede para o seu telefone”, detalhou.

O tráfego de dados entre essas instalações de computação é gerenciado por roteadores. Como parte do trabalho de manutenção dessa infraestrutura, os engenheiros da corporação geralmente precisam deixar offline parte do backbone. Ou para consertar uma linha de fibra ou atualizar o software no roteador ou para executar outro serviço.

De acordo com Janardhan, essa foi a fonte da interrupção do mega apagão da segunda. “Durante um desses trabalhos de manutenção, um comando foi emitido com a intenção de avaliar a disponibilidade da capacidade do backbone global, que involuntariamente derrubou todas as conexões em nossa rede, desconectando efetivamente os data centers do Facebook no mundo”. 

Ele explicou que os sistemas de segurança da companhia são projetados para auditar comandos como esses e, assim, evitar erros, mas um bug nessa ferramenta não interrompeu o processo corretamente, provocando a “desconexão completa” entre servidores, centros de dados e internet. A perda total de conexão levou a um segundo problema, complicando ainda mais o quadro.

“Um dos trabalhos realizados por nossas instalações menores é responder a consultas de DNS. DNS é o catálogo de endereços da internet, permitindo que os nomes simples da web que digitamos nos navegadores sejam traduzidos em endereços IP”, esclareceu o executivo. 

Para garantir uma operação confiável, os servidores DNS desativam um determinado protocolo (BGP) se eles não puderem falar com os data centers – isso é indicação de conexão de rede não íntegra. Com a interrupção, os BGPs foram desativados. O resultado final foi que os servidores DNS do Facebook ficaram inacessíveis, embora estivessem operacionais. “Isso impossibilitou que o restante da internet encontrasse nossos servidores”, afirmou Janardhan.

SEM ACESSO 

Tudo isso acontecendo e os engenheiros acabaram bloqueados pelo próprio Facebook, como dito mais acima. Primeiro, eles não puderam acessar os data centers pelos meios normais já que as redes estavam desligadas. O segundo motivo, como relatado por Janardhan, foi o fato de a perda total de DNS ter quebrado muitas ferramentas internas normalmente usadas para investigar e resolver interrupções como a desta semana.

Para que os engenheiros reiniciassem o sistema foi necessário mais tempo do que o imaginado. “Essas instalações foram projetadas com altos níveis de segurança física e de sistema”. Ou seja, é complicado entrar nos centros de dados. Uma vez dentro, é preciso encarar o hardware e os roteadores, que são projetados para serem difíceis de modificar, mesmo quando se tem acesso físico a eles. “Demorou mais para ativar os protocolos de acesso seguro necessários para colocar as pessoas no local e para poder trabalhar nos servidores. Só então poderíamos confirmar o problema e colocar nosso backbone online novamente”.

Mas o drama ainda não havia acabado. Depois que a conectividade do backbone gobal foi restaurada, foi a vez de encarar outro problema. Reativar os serviços numa tacada só poderia causar nova rodada de incidentes pelo aumento no tráfego de dados. “Os data centers individuais relatavam quedas no uso de energia na faixa de dezenas de megawatts. Reverter repentinamente essa queda no consumo de energia poderia colocar em risco tudo, desde sistemas elétricos a caches”, justificou o vp de infraestrutura.

TEMPESTADE 

Treinar para reagir a falhas do sistema capazes de colocar um serviço ou data center abaixo faz parte da rotina de uma empresa como o Facebook. Segundo Janardhan, a companhia realiza há muito tempo exercícios que simulam “tempestades” do gênero. Nos exercícios são simulados grandes erros que testam infraestrutura e softwares. “No final, nossos serviços voltaram a funcionar com relativa rapidez, sem mais falhas em todo o sistema. E embora nunca tenhamos enfrentado uma tempestade que simulasse nosso backbone global sendo colocado off-line, certamente iremos procurar maneiras de simular eventos como este daqui para frente”.

Ele ainda acrescentou ao comunicado que cada falha é uma oportunidade de aprender e melhorar. Com o tamanho do problema de segunda-feira, não somente o Facebook como outras gigantes da tecnologia podem aprender com a amarga experiência da corporação de Mark Zuckerberg. Que, aliás, na segunda-feira, com a queda das ações do Facebook, teria perdido, em questão de horas, um montante estimado em US$ 6 bilhões.

“NÃO VOU FALHAR COM VOCÊ”

Em meio à tormenta do Facebook, o Telegram foi uma das empresas que receberam mais acesso na segunda, o que foi celebrado publicamente. O fundador e CEO da empresa, o russo Pavel Durov, disse nesta terça, em seu canal na plataforma, que o serviço registrou recorde de novos usuários: 70 milhões de “refugiados de outras redes sociais”. Os acessos foram tantos que a plataforma chegou a ficar mais lenta nos EUA, como ele mesmo contou, mas nada que pudesse abalar suas estruturas.

Ainda assim, Durov não poupou ironia: “Para novos usuários, gostaria de dizer o seguinte: bem-vindo ao Telegram, a maior plataforma de mensagens independente. Nós não vamos falhar com você quando outras falharem.”

 


SOBRE O(A) AUTOR(A)

Fast Company é a marca líder mundial em mídia de negócios, com foco editorial em inovação, tecnologia, liderança, ideias para mudar o ... saiba mais