Torkov izpad interneta povzročil hrošč v Fastlyju

Matej Huš

10. jun 2021 ob 23:10:38

V torek dopoldne je velik del internet šepal, saj so motnje pri dostopu do določenih strani pojavljale po celem svetu. Na prvi pogled ni bilo nobenega geografskega, tematskega ali kakršnegakoli drugega vzorca, ki bi pojasnil, zakaj Reddit, Spotify ali Wired marsikod niso bili dostopni. Razlog se je skrival v podjetju Fastly, ki upravlja distribucijsko omrežje (content delivery network, CDN). Čeprav povprečen uporabnik interneta za Fastly še ni slišal, gre za enega v veliki trojici CDN-jev skupaj s Cloudflare in Akamai. In se spotaknejo ti, internet pade.

Podatki in vsebine, do katerih želimo priti, niso v kakšnem ezoteričnem oblaku, temveč na strežnikih ponudnika storitev. Ker so odjemalci, ki bi jih želeli videti, razporejeni po celem svetu, je smiselno tudi vsebino gostiti na več fizičnih strežnikih po celem svetu, tako da se Evropejcem vsebina ne pretaka vsakokrat iz ZDA. CDN-ji delujejo kot sloj na internetu, in sicer nudijo gostovanje vsebin, ki so tako bližje končnim uporabnikom, kar se pozna na hitrosti dostopa, predvsem pa razbremenjujejo tako mednarodne povezave kakor tudi strežnike ponudnika storitev. Fastly ima strežnike v več kot petdesetih mestih po svetu, nam najbližje pa na Dunaju in Milanu. To pomeni, da pri obisku tujih strani, denimo The New York Timesa, zelo verjetno beremo kopijo spletnega mesta z dunajskega ali frankfurtskega CDN-ja.

V torek pa je imel Fastly težave, ki so jih sicer kmalu odpravili, a so posledice še nekaj časa vztrajale. Geneza težave sega v 12. maj, ko so pri posodobitvi programske opreme naložili hrošča. Ta je zobe pokazal v torek ob 11.47 po slovenskem času, ki ga je Fastly popravil v slabi uri. Razlog je bila specifična konfiguracija ene izmed strank. Toda čeprav je v uri Fastly spet deloval normalno, so se njihovi strežniki še nekaj časa polnili s podatki, zato so bili uporabniki preusmerjeni do izvirnih strežnikov z vsebinami. CDN-ji imajo več nivojev redundance, ki bi morala zagotoviti normalno delovanje tudi ob izpadu večjega števila strežnikov, a ob programskih težavah lahko napaka propagira na več strežnikov.