Slo-Tech - Zaradi julijskega izpada računalnikov, ki jih je zakrivila posodobitev CrowdStrike Falcona, je ameriška Delta napovedala tožbo zoper proizvajalca in Microsoft. Očita jim, da je ekosistem izrazito krhek in da sta odgovorna za napako, ki je povzročila več sto milijonov dolarjev škode. Delta je bila prisiljena odpovedati več tisoč letov, ker so njihovi računalniki kazali modre zaslone.
Zato so najeli zvezdniškega odvetnika Davida Boiesa in se začeli pripravljati na tožbo. Ocenujejo, da je nastala škoda v višini 350-500 milijonov dolarjev, saj so odpovedali 7000 letov in morajo izplačati odškodnine ali drugače kompenzirati škodo 176.000 potnikom.
Kolektivno tožbo so napovedali tudi CrowdStrikovi delničarji, v kateri k odgovornosti kličejo izvršnega direktorja in finančnega direktorja. Prvi je še marca poudarjal, da je programska oprema "validirana, preizkušena in certificirana", kar pa ni res. Napake, ki so si jih privoščili, da je pokvarjena datoteka sploh lahko povzročila toliko škodo, te trditve postavljajo na laž. Delničarjem je nastala občutna škoda, saj je delnica CrowdStrika v zadnjem mesecu izgubila okrog 40 odstotkov vrednosti.
Sedaj sta se oglasila tudi Microsoft in CrowdStrike. Ta poudarjata, da je Delta za obseg težave kriva predvsem sama. Microsoftov izvršni direktor je že istega dne pisal Deltinemu direktorju, zaposleni pa so tudi večkrat ponudili pomoč, a se Delta ni odzvala. Tudi CrowdStrike je ponudil pomoč, a ni dobil odgovora.
To, da so jim ponudili pomoč nima veze s tem, da je posodobitev povzročila ogromno škodo. Če povzročiš ogromno škodo zaradi velike malomarnosti te ne reši krivde to, da si nekomu ponudil pomoč. Tako enostavno pravno to ni. Upam da jim uspe iztožiti te milijone in da se proizvajalci programske opreme nehajo zanašati na to, da niso krivi za nič.
Microsoftov izvršni direktor je že istega dne pisal Deltinemu direktorju, zaposleni pa so tudi večkrat ponudili pomoč, a se Delta ni odzvala. Tudi CrowdStrike je ponudil pomoč, a ni dobil odgovora.
Ne potrebujejo pomoči, potrebujejo samo zelence. Ti rešijo vse težave.
Crowdstrike omogoča tudi namestitev posodobitev najprej na del računalnikov potem pa na vse. Ampak pri tej posodobitvi je bilo to povoženo s strani Crowdstrika.
Saj napake se dogajajo, ampak pri nas v firmi delamo preprosto aplikacijo za navigacijo pa imamo staging release na mobilnih telefonih. Pa če tudi je bug v aplikaciji ne moremo telefona zbrickat. Pa še pred releasom je QA pa interni release.
Tu pa zgleda ni bilo nič. Prazno datoteko so poslali brez QA, internega release al pa staginga. In zato ker je kernel modul lahko dobiš bsod. Ker je bralnik tudi buggy. In še hujše: Ista stvar se jim je zgodila Aprila ko so zbrickali Linuxe zaradi updata pa jih nič ni izučilo.
Everyone started out as a newbie.
Sadly only a handful ever progress past that point.
Crowdstrike omogoča tudi namestitev posodobitev najprej na del računalnikov potem pa na vse. Ampak pri tej posodobitvi je bilo to povoženo s strani Crowdstrika.
Napaka lokalnih ITjev je, da neki firmi kar pustijo remote update...
Mogoče na eno testno okolje, potem pa sam poskrbiš za update produkcije. Če firma tega ne pusti, jo pač vržeš ven...
"Life is hard; it's even harder when you're stupid."
To, da so jim ponudili pomoč nima veze s tem, da je posodobitev povzročila ogromno škodo. Če povzročiš ogromno škodo zaradi velike malomarnosti te ne reši krivde to, da si nekomu ponudil pomoč. Tako enostavno pravno to ni. Upam da jim uspe iztožiti te milijone in da se proizvajalci programske opreme nehajo zanašati na to, da niso krivi za nič.
Ogromno škodo je v bistvu povzročilo šele zavračanje pomoči. Itak je pa vse odvisno od pogodbe in SLA-jev v njej.
Crowdstrike omogoča tudi namestitev posodobitev najprej na del računalnikov potem pa na vse. Ampak pri tej posodobitvi je bilo to povoženo s strani Crowdstrika.
Napaka lokalnih ITjev je, da neki firmi kar pustijo remote update...
Mogoče na eno testno okolje, potem pa sam poskrbiš za update produkcije. Če firma tega ne pusti, jo pač vržeš ven...
Jasno, zato pa obstaja test, staging in produkcijsko okolje. Najlažje je "testirat" na produkciji in potem jokat.
Odreši te odgovornosti do vodstva in raznih zunanjih revizorjev in ne vem česa. Saj ni samo ta update problem, problem so tudi potencialni vdori itd. Če ima lokalni IT možnost nekaj od tega preložit drugam, brez skrbi da bo z veseljem to naredu.
Če v pogodbi piše "produkcijsko okolje se lahko/mora samodejno posodablja/ti brez predhodnega testiranja in staginga" ali pa "mi smo 100% izvajalec vaših IT storitev" potem je vsa odgovornost na CRWD.
Kaj točno ima OS s tem kakšnen software gor nalaga uporabnik? Je MS kriv če uporabnik klikne "you won $1000000 install this app to claim it" v edge browserju in instalira nek program?
Tudi če je enterprise uporabnik, saj na win10/11 lahko polno procesov ubiješ in naštimaš da ti os dela to kar rabiš. Če nekdo crowdstrike uporablja je to njihova stvar in je CS tukaj kriv 100% imo.
Wow, niti eden se ni pozanimal kaj sploh je šlo pri tem incidentu.
Recimo zanimiv fakt je da so imeli pri crowdstrike pripravljen remote popravek, ki bi lahko deloval za večino sistemov.
Ampak si jih moral kontaktirat, da so ti to povedali. Ker če prav razumem si moral enablat nekaj v nastavitvah (na cloud strani tako da je bilo čisto doable).
Tu se verjetno pokaže kako na psu je IT od Delte.
Ajde crowdstrike je zajebal, so podatki pa tudi javni o tem kako je potekalo in detajli zakaj in kako. Zanimivo drugače.
Recimo zanimiv fakt je da so imeli pri crowdstrike pripravljen remote popravek, ki bi lahko deloval za večino sistemov.
Ampak si jih moral kontaktirat, da so ti to povedali. Ker če prav razumem si moral enablat nekaj v nastavitvah (na cloud strani tako da je bilo čisto doable).
Ogromno škodo je v bistvu povzročilo šele zavračanje pomoči. Itak je pa vse odvisno od pogodbe in SLA-jev v njej.
Kakor razumem se niso odzvali, ne zavrnili pomoč. To je razlika. Njim je praktično razpadel IT sistem in gre za veliko letalsko družbo. To ni slaščičarna. Sigurno tudi ne drži, da problema niso reševali. Težava je bila v tem, da je bil obseg tako velik.
Bom dal primer. Ti parkiraš težak tovornjak na klancu. Tovornjak je bil na servisu, kjer so zanič popravili zavore. Tovornjak se odpelje navzdol po klancu in meni poruši hišo. Nakar ti trdiš, da je skoraj moja krivda, ker se nisem odzval na ponujeno pomoč, jaz pa zasut? Bedarija! Ti si odgovoren, da se je meni podrla hiša in te bom odškodninsko tožil.
Zanimivo bi bilo videti statistiko koliko škode je povzročil ta bug in koliko škode je povzročil še njihov prejšnji bug na Debianu. Bi bilo pa ironično, če bi se pokazalo, da je "protivirusna zaščita" na poslovnih sistemih naredila več škode kot virusi.
TLDR: C++: It is left undefined what happens if you go out of bounds
Mitigation: Add runtime input array bounds checks to the Content Interpreter for Rapid Response Content in Channel File 291
In summary, it was the confluence of these issues that resulted in a system crash: the mismatch between the 21 inputs validated by the Content Validator versus the 20 provided to the Content Interpreter, the latent out-of-bounds read issue in the Content Interpreter, and the lack of a specific test for non-wildcard matching criteria in the 21st field. While this scenario with Channel File 291 is now incapable of recurring, it also informs process improvements and mitigation steps that CrowdStrike is deploying to ensure further enhanced resilience.
One of these instances instructed the interpreter, for the first time, to make use of the 21st parameter, but only 20 were provided to that code. That caused the content interpreter, running in Windows kernel mode unfortunately, to use an uninitialized field - the missing 21st parameter - as a pointer, which caused it to touch unallocated memory and ultimately crash the operating system.
"The attempt to access the 21st value produced an out-of-bounds memory read beyond the end of the input data array and resulted in a system crash," the security shop summarized in its analysis.
CrowdStrike updated its sensor content compiler to ensure that in future template types get the correct number of inputs from instances, and this went into production on July 27.
CrowdStrike also wrote that it has added runtime bounds checking to the content interpreter for Rapid Response updates, to ensure it doesn't read off the end of its input array again. This fix and another check that the array size is correct are being backported to all Windows sensor versions 7.11 and above with a sensor software hotfix. The release will be generally available by August 9.
Hrošč Puščavnik, ogrožena živalska vrsta iz Tivolija.
Njihov testing je očitno zelo slab. Tudi lokalno, ko PC dobi popravek, bi servis lahko launchal nov proces. Če ta uspešno zalaufa, se stari ubije. Če ne, ne naredi nič. Problem rešen.
Ampak budget za kaj tako osnovnega je verjetno šel v jahte.
Recimo zanimiv fakt je da so imeli pri crowdstrike pripravljen remote popravek, ki bi lahko deloval za večino sistemov.
Ampak si jih moral kontaktirat, da so ti to povedali. Ker če prav razumem si moral enablat nekaj v nastavitvah (na cloud strani tako da je bilo čisto doable).
Pa tako: jedro lahko launcha ločen proces, ki bo sparsal nove definicije/whatever z isto logiko, kot je v jedru in poročal o uspešnosti, kar bo signal, da je vse v redu, ali pa crashal.
Pa tako: jedro lahko launcha ločen proces, ki bo sparsal nove definicije/whatever z isto logiko, kot je v jedru in poročal o uspešnosti, kar bo signal, da je vse v redu, ali pa crashal.
Potem bi moral imeti praktično dve implementaciji, ki verjetno ne bi bili čisto enaki. Koda z v jedro je drugačna, kot za navadne procese. Pravilno bi bilo da bi v jedru imeli samo tisto kar tam res mora biti tam in bi potem komunicirali z navadnim procesom, ki bi imel definicije in logiko.
Ne vem zakaj se spravljajo na MS, a pričakujejo da bo OS 100% zanesljiv če kakšen program sproži moder zaslon ?
V mojih očeh bi moral OS ugotovit, da se ne uspe nazaj postavit in zadevo rollbackat, tako da se spet nazaj zbutajo windowsi do polne funkcionalnosti. Sej že XPji so imeli da so loadal "last good known configuration".
Ne vem zakaj se spravljajo na MS, a pričakujejo da bo OS 100% zanesljiv če kakšen program sproži moder zaslon ?
V mojih očeh bi moral OS ugotovit, da se ne uspe nazaj postavit in zadevo rollbackat, tako da se spet nazaj zbutajo windowsi do polne funkcionalnosti. Sej že XPji so imeli da so loadal "last good known configuration".
Pri varnostnih zadevah je to dvorezni meč.
Druga zadeva pa, driver se ne sesuje ob zagonu, ampak malček kasneje.
Ne vem zakaj se spravljajo na MS, a pričakujejo da bo OS 100% zanesljiv če kakšen program sproži moder zaslon ?
Itak! OS mora po defaultu preventivno ubit vsak tak program/process.
Ti imaš lahko še tako dober OS, ampak če nekemu programu dodaš preveč pravic, ti bo ubil OS ob pizdariji...
Saj v tem je ves keč. Zakaj je potrebno dati takemu "programu" pravice praktično na nivoju jedra sistema in mu pustiti da se auto-apdejta? Za moje pojme je to v veliki večini primerov čisto odveč, je pa default in večina teh default nastavitev ne spreminja, ker ali ne znajo ali pa jih boli đonson, važno da so legally compliant.