Amazon pojasnil podrobnosti izpada EC2

Matej Huš

30. apr 2011 ob 11:30:31

Amazon je po dobrem tednu od izpada oblaka Elastic Compute Cloud (EC2) objavil podrobnosti o vzrokih za izpad in njegovem poteku, ukrepih za preprečitev v prihodnosti in opravičilo.

Amazon odseke svojega oblaka deli na večje enote med seboj skoraj neodvisne enote regije in znotraj njih manjša, bolj soodvisna območja. V območju ZDA vzhod je 21. aprila kmalu po polnoči (6.47 po slovenskem času) zaradi nepravilne izvedbe načrtovane nadgradnje izpadel eden izmed nosilcev podatkov, ki ni mogel več odgovarjati na zahteve po pisanju ali branju podatkov. Pred nadgradnjo infrastrukture bi bili morali preusmeriti promet s pomožnih usmerjevalnikov na glavno omrežje, a so pomotoma storili ravno nasprotno. Pomožno omrežje obremenitve ni zdržalo. Napaka se je potem kaskadno razširila po večjem delu območja, saj so delujoči podatkovni nosilci poizkušali sinhronizirati svojo vsebino na nove lokacije (postopek se imenuje re-mirroring in se izvede, ko primarna varnostna kopija postane nedosegljiva), kar je izčrpalo kapaciteto omrežja. Kmalu je bilo 13 odstotkov zapisov v območju ZDA vzhod nedosegljivih.

Amazon se je opravičil vsem prizadetim stranem in jim ponudili kompenzacijo v višini zneska, ki ga plačujejo za 10-dnevni najem Amazonovih storitev. Hkrati so še napovedali nekaj ukrepov, ki jih bodo sprejeli za izboljšanje omrežja in preprečitev podobnih težav v prihodnosti. Predvsem bodo strankam olajšali delo z več območji, tako da bodo imele večjo redundanco. Zanimivo je, da je ta velik izpad povzročil človeški faktor. Čeprav je šlo za kombinacijo nesrečnih naključij in slabe konfiguracije omrežja, je celotno kaskado sprožila napačna poteza pri nadgradnji sistema.