A Amazon anunciou que seus serviços em nuvem estavam totalmente operacionais na tarde de segunda-feira, após uma interrupção global da internet que interrompeu aplicativos populares da web, incluindo Snapchat e Reddit.
A Amazon afirmou que, embora os serviços em nuvem tenham sido restaurados, alguns serviços da AWS ainda apresentam um grande acúmulo de mensagens pendentes, que deve levar várias horas para serem totalmente resolvidos. A interrupção teve origem no cluster US-EAST-1 da AWS, no norte da Virgínia, a maior e mais antiga região da AWS e local de pelo menos três grandes interrupções na internet nos últimos cinco anos. O problema teve origem em um subsistema de monitoramento de integridade da rede, que monitora a integridade dos balanceadores de carga da rede e, acidentalmente, impediu que os aplicativos localizassem o endereço correto para a API do AWS DynamoDB, impactando o acesso ao banco de dados em nuvem.

A AWS, maior provedora de nuvem do mundo, sofreu interrupções generalizadas para empresas, governos e indivíduos que dependem de sua infraestrutura. De Londres a Tóquio, os funcionários não conseguiram trabalhar online e os usuários tiveram dificuldades com tarefas cotidianas, como pagar cortes de cabelo e trocar passagens aéreas. Serviços como o Venmo e as videochamadas do Zoom também enfrentaram dificuldades. De acordo com a Ookla, a interrupção resultou em mais de 4 milhões de relatos de usuários e afetou pelo menos 1.000 empresas, incluindo aplicativos populares como Reddit, Roblox e Snapchat, bem como o site de compras da Amazon, o Prime Video, e serviços como a Alexa.
Ken Birman, professor de ciência da computação na Universidade Cornell, observou que os desenvolvedores de software precisam desenvolver capacidades de tolerância a falhas mais fortes para lidar com potenciais falhas em data centers em nuvem. Ele enfatizou que a AWS fornece ferramentas de proteção e que os desenvolvedores também podem criar backups com outros provedores de nuvem. No entanto, algumas empresas, buscando economizar custos, negligenciam essa etapa, sofrendo perdas significativas durante as interrupções.









