Zakaj je ta teden klecnil Google

Matej Huš

8. jun 2019 ob 22:24:56

V začetku tega tedna je za več ur klecnil del Googlovega omrežja, kar se občutili tudi nekateri uporabniki pri nas. Mrk ni bil popoln, temveč je šlo predvsem za upočasnitev. Prav tako ni vplival enako na vse storitve, saj je iskanje delovalo sorazmerno normalno, elektronska pošta ali Shopify pa ne. Google je podrobneje pojasnil, kaj je šlo narobe, in predvsem kako svojih strežnikov niso mogli takoj popraviti, ker so bila nedosegljiva -- Googlova orodja.

Vzrok za težave ni bil nič presenetljivega. V ponedeljek zjutraj so začeli redna vzdrževalna dela na nekaj strežnikih v eni geografski regiji. V takih primerih Google preusmeri naloge teh strežnikov na druge, česar uporabniki običajno ne opazijo. V konkretnem primeru pa sta se zgodili dve napaki pri konfiguraciji, ki vsaka zase ne bi bili problematični. Ko pa se jima je pridružil še hrošč, je šlo narobe več stvari.

V primerih, ko začne Google Cloud pešati, se začne prioritizacija storitev. Iskanje je visoko na seznamu, ker v primeru nedelujočega iskalnika uporabniki pač uporabijo konkurenco. Elektronska pošta je niže na seznamu, ker zaradi nekajurne nedosegljivosti nihče ne bo menjal ponudnika. Nekatere druge storitve imajo še nižjo prioriteto. Prometa na Google Cloud Storage je upadel za 30 odstotkov, kar je imelo posledice za vse storitve. Število ogledov na YouTubu je padlo za 2,5 odstotka, 1 odstotek uporabnikov Gmaila ni mogel brati svoje pošte ipd.

Problem pa je, ker mora Google določati prioriteto tudi svojemu prometu, ki služi krmiljenju strežnikov (control plane) in organizaciji (management traffic). Sistemi za avtomatično znižanje obremenitve so deprioritizirali tudi določen kontrolni promet. V ponedeljek je tako diagnostiko in odpravo težav oteževalo dejstvo, da so morala ustrezna orodja prav tako tekmovati za isto čedalje manjšo kapaciteto. Tako je Google potreboval tri ure, da je postavil natančno diagnozo, kaj je šlo narobe, in štiri ure, da je pripravil popravke in jih začel uveljavljati. Po približno šestih urah je omrežje ponovno delovalo brez težav. Google pravi, da so se iz težav precej naučili in da bodo uvedli mehanizme, ki bodo preprečevali podobne nedosegljivosti v prihodnosti. Nikoli pa jih ne bo možno v celoti preprečiti, saj imajo omrežja pač omejene kapacitete. Če se del ustavi, je treba na preostanku izvajati triažo.