Home > Notícias

Erro humano foi causa de interrupção de serviços, diz AWS

Guilherme Borini

03/03/2017 às 10h12

Foto:

A Amazon Web Services (AWS) já identificou a causa da interrupção de seu servidor S3, na última terça-feira (28/02), que derrubou diversos serviços on-line. Em nota, a empresa afirma que um erro humano resultou na falha dos serviços Amazon S3 na região do norte da Virgínia (US-EAST-1). A instabilidade durou mais de 3 horas e meia e impactou o envio e recebimento de dados dos clientes, entre eles serviços como Netflix, Slack e Spotify.

O problema foi um erro de digitação em um comando, que casou a remoção de um conjunto maior de servidores do que o previsto. Um engenheiro da empresa foi encarregado de digitar um comando para desligar alguns subsistemas de armazenamento. Em um dia típico, isso não causaria qualquer problema qualquer, já que é uma tarefa rotineira, mas na terça-feira algo não ocorreu como o esperado.

O funcionário entrou no comando de acordo com o procedimento baseado no que a Amazon chama de "um playbook estabelecido." Ele deveria emitir um comando para derrubar um pequeno número de servidores em um sub-sistema S3, mas, ao invés de derrubar apenas aquele pequeno conjunto de servidores, tirou um conjunto muito maior.

O erro teve um impacto em cascata no armazenamento S3 no data center do Norte da Virgínia. O fato removeu uma quantidade significativa de capacidade de armazenamento, o que fez com que os sistemas reiniciassem.

Em nota, a AWS lamentou que infelizmente uma das entradas para o comando foi inserida incorretamente e um conjunto maior de servidores foi removido do que o pretendido. "Os servidores que foram inadvertidamente removidos suportaram dois outros subsistemas S3. Um desses subsistemas, o subsistema de índice, gerencia os metadados e as informações de localização de todos os objetos S3 na região", explicou.

A empresa também se desculpou pelo impacto que esse evento causou para os clientes. "Enquanto estamos orgulhosos de nosso longo histórico de disponibilidade com o Amazon S3, sabemos o quão crítico este serviço é para nossos clientes, seus aplicativos e usuários finais e seus negócios. Faremos tudo o que pudermos para aprender com este evento e usá-lo para melhorar nossa disponibilidade ainda mais", finalizou a companhia.

Confira na íntegra a nota divulgada pela AWS (em inglês).

Tags

Junte-se a nós e receba nossas melhores histórias de tecnologia. Newsletter Newsletter por e-mail