» »

Kako zanesljivo lahko SMART napove odpoved diska

Kako zanesljivo lahko SMART napove odpoved diska

Slo-Tech - Backblaze, ki upravlja več 70.000 diskov v svojem podatkovnem centru, nam je ponovno pripravil zanimivo statistiko zanesljivosti diskov. To pot se niso ukvarjali z vzdržljivostjo posameznih znamk, temveč jih je zanimalo, ali lahko napovemo, da bo nek disk odpovedal. Izkazalo se je, da za približno tri četrtine diskov to lahko storimo, a statistika ni tako preprosta.

Diski namreč že precej časa podpirajo sistem SMART za zbiranje informacij o svoji kondiciji. V okviru SMART se beleži več deset parametrov, med katerimi so nekateri močno korelirani z odpovedjo diska. Pri Backblazu enkratno dnevno odčitajo parametre vsakega diska, kar jim daje že dovolj velik statistični vzorec, da lahko podajo veljavne zaključke o korelaciji med napakami SMART in odpovedmi diskov. Beležili so parametre 5 (prestavljeni sektorji), 187 (nepopravljive napake), 188 (iztek časa za odgovor na ukaz), 197 (čakajoči sektorji) in 198 (nepopravljivi sektorji), ki so, razen zadnjih dveh, med seboj nekorelirani.

Ugotovitev: 76,7 odstotkov diskov, ki je odpovedalo, je pred tem pokazalo vsaj eno opozorilo SMART. Med diski, ki so preživeli, je bilo takih z opozorilom 4,2 odstotka. To se sliši dobro, a gospod Bayes nam pove, da to ni tako zelo dober rezultat, če upoštevamo, da odpove 1-5 odstotkov vseh diskov. Vseeno pa je mogoče iz podatkov SMART sklepati še marsikaj, so ugotovili. Če se na disku hitro začne povečevati število napak, bo disk hitro tudi umrl. Če se pojavi več različnih napak SMART, je disk prav tako zrel za na odpis. Če pa po drugi strani disk počasi skozi leta nabira napake SMART, ni nujno, da mu bo hudega.

Ukvarjali so se tudi z večnim vprašanjem, kako močno diskom škoduje izklapljanje in vklapljanje. Čeprav so imeli pokvarjeni diski (27,7) več vklopov in izklopov od delujočih (10,2), ti podatki niso prepričljivi, ker je Backblaze specifično okolje, kjer je ciklov tako ali tako zelo malo (nekajkrat letno). Prav tako niso kontrolirali za druge spremenljivke, denimo starost, zato si dokončne odgovore na to vprašanje puščajo za prihodnost.

17 komentarjev

dexterboy ::

Sej če bi bil 4 tera 99 evrov, me zanesljivost ne bi tako zelo skrbela. Tako te pa ob renutnih cenah, kjer ni znakov upadanja, vsak zapis napake postara za nekaj let :)
Res me zanima, kdaj mislijo spustitit cene na realna tla. Kmalu bo SSD samo še dvokratnik cene vrtečim platam...
Ko ne gre več, ko se ustavi, RESET Vas spet v ritem spravi.

Brane22 ::

To je zato, ker je smart v bistvu bolj stupid.

Škoda jim je denarja z aekstra senzor ali tri, ki vsi skupaj ne bi nanesli $0.5.

Če bi stvar spremljala recimo nihanja in špice v napajalni napetosti, bi lahko rekla marsikaj.

Ravno tako bi statistika signala glave lahko bila ekvivalent zelo solidnemu avtomobilskemu OBD-II diagnostičnemu štekerju.

Iz tega bi lahko videl odpovedovanje motorjev, ležajev, ojačevalnikov ali kar glave.
Samo tega seveda ni.

darkolord ::

Kaj pa bi rekla - glede na špice v napajalni napetosti?

Brane22 ::

Recimo višina najvišje in najnižje zaznane špice v napajnju, recimo skozi nekaj obdobij.

Mnoge diske v bistvu skurijo napajalniki, ki jim odpovedo kondiji ali pa ko oksidirajo napajalni kontakti.

Taki vplivi komot povzročijo da obnašanje elektronike pade izven predpisanih meja in sektorji niso vpisani pravilno.

darkolord ::

To ni noben problem. Kakšen bit se tu in tam narobe obrne že zaradi kozmičnega sevanja. To diska ne pokvari.

Mehanika (predvsem glave) crkuje precej bolj kot elektronika. Nihanja temperature, vlage, vibracije na delovanje vplivajo precej bolj kot napetost.

MrStein ::

  5 - Reallocated Sectors Count
187 - Reported Uncorrectable Errors
188 - Command Timeout
197 - Current Pending Sector Count
198 - Uncorrectable Sector Count


dexterboy je izjavil:

Sej če bi bil 4 tera 99 evrov, me zanesljivost ne bi tako zelo skrbela.

A 120 EUR pa ni več OK?
Motiti se je človeško.
Motiti se pogosto je neumno.
Vztrajati pri zmoti je... oh, pozdravljen!

Zgodovina sprememb…

  • spremenil: MrStein ()

Brane22 ::

darkolord je izjavil:

To ni noben problem. Kakšen bit se tu in tam narobe obrne že zaradi kozmičnega sevanja. To diska ne pokvari.

Mehanika (predvsem glave) crkuje precej bolj kot elektronika. Nihanja temperature, vlage, vibracije na delovanje vplivajo precej bolj kot napetost.




Po mojih izkušnjah to ni čisto res. Ti lahko komot ubiješ disk s čudnimi napetostmi, tudi če te niso previsoke.
Zadosti je,d a semu strga v kritičnem trenutku in vpiše kako neumnost v interni flash ali mehanika kaj zariba ali vpiše kaj v strateško pomembne sektorje itd.

dexterboy ::

Pravzaprav ubijata diske tako nekvalitetni napajalniki kot mehanske poškodbe. Nihanja napetosti na izhodi 12V sesujejo elektroniko diska, vibracije in temperatura pa mehaniko diska.
Pri sebi, ko imam UnRaid in mi stalno laufata samo dva diska (za data in pariteto), ostalih osem pa miruje, raje ročno zaštartam posamezen disk po disk, kot pa da bi kliknil na gumb "spin up disks", ki jih zažene vse istočasno. Pa ne, da bi imel slab napajalnik, le tako sem jaz bolj ziher :)
Pozabil dopisati; ko vidim ohišja in kako so diski notri prišraufani, si upam trditi, da si inženirji zaslužijo nobelovo nagrado za fiziko, da vse to deluje pri teh vibracijah in tresljajih...
Ko ne gre več, ko se ustavi, RESET Vas spet v ritem spravi.

Zgodovina sprememb…

darkolord ::

Ja, OK, nekvaliteten napajalnik ti lahko vse komponente ubije. Ampak za to je rešitev sila enostavna - zamenjaš ga s kvalitetnim.

Randomness ::

V novici je podan sklic na Bayesian_probability, kjer je opisana Bayesovska interpretacija verjetnosti, ki pa za razlago rezultatov opisanega eksperimenta ni potrebna/relevantna.

P.S. Se opravičujem, če sem rahlo OT.

Zgodovina sprememb…

Brane22 ::

darkolord je izjavil:

Ja, OK, nekvaliteten napajalnik ti lahko vse komponente ubije. Ampak za to je rešitev sila enostavna - zamenjaš ga s kvalitetnim.


Tudi v kakovostnem napajalniku so elektroliti, ki imajo svojo (končno) dobo trajanja.

In koneckoncev saj pri napajalniku se ne konča. Je še precej kritičnih točk v kablih in konektorjih.

Zgodovina sprememb…

  • spremenilo: Brane22 ()

lencc ::

To se pravi, da je SMART dober predvsem pri analizi trenda napak: če se število (vrst) napak prične pogosteje pojavljati v kratkem času, je to resen znak za odpoved HDD-ja. V nasprotnem primeru pa ne nujno.

Kot je že bilo omenjeno, mehanskim diskom najverjetneje najbolj škodijo nihanja v napetosti in mehanske "obremenitve" (poškodbe). Očitno manjšo verjetnost odpovedi predstavlja kozmično sevanje in starost diskov.
[Delno off-topic] Zanimivo pa je, da pri odpovedih SSD-jev po Googlovi študiji glavni problem predstavlja starost in ne toliko sama intenzivnost uporabe oz. cikli pisanja in branja. Poleg tega v analizi ugotavljajo, da so pri samih napakah sicer pogostejše bralne napake od napak pri zapisovanju.
Sicer so statistično gledano SSD-ji precej zanesljivejši od HDD-jev. Res pa je, da so SSD-ji od njih tudi dražji.

Zgodovina sprememb…

  • spremenil: lencc ()

Brane22 ::

Ne samo mehanske poškodbe temveč tudi temperaturne spremembe in vibracije med delom.

Ena bistvenih razlik poceni in dražjih serij je možnost dela pod vibracijami.

Zato pri poceni diskih dovoljujejo montaže v sisteme z do par diskov, pri dražjih pa 8 in čez.

srnjak ::

Če začne SMART javljati napake v času garancije, lahko pričakujem, da mi ga bodo menjali?

kixs ::

Ce gre za probleme s sektorji (bad ali reallocated), potem seveda bodo.

MIHAc27 ::

srnjak je izjavil:

Če začne SMART javljati napake v času garancije, lahko pričakujem, da mi ga bodo menjali?


Sem že nesel nazaj disk, ki je javljal End of life, brez slabih sektorjev (SSD) in so mi ga zamenjali.

Sam, če SMART javlja slabe sektorje svetujem takojšnjo menjavo. Sploh če je številka že večmestna. Lahko pa seveda tak disk lepo deluje še lep čas. enega že gotovo vsaj 5 let vrtim z bad sectorji. Nimam pa na njem seveda nič zelo pomembnega.

SMART seveda ni vsemogočen. Sem že imel več kot enkrat primer, ko je disk šel čez vse teste (3-4urne) in ni javljal nič narobe. Po enem tednu se je vrnil čisto crknjen. Niti podatkov se ni več dalo dobiti dol.

srnjak ::

Hvala. Bom nesel menjat. Zaenkrat me sicer še RAID rešuje pred paniko. Ampak vseeno je treba zrihtat. :)


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

BackBlazova statistika: letno odpove 2 % diskov

Oddelek: Novice / Diski
409223 (6061) Miha 333
»

Diski: najbolj zanesljivi HGST, najmanj WDC

Oddelek: Novice / Diski
4612440 (9592) MrStein
»

Zanesljivost diskov tretjič: 4 TB najbolje, Seagate Barracuda katastrofalno (strani: 1 2 3 )

Oddelek: Novice / Diski
10629921 (22856) Miha 333
»

Zanesljivost diskov drugič: zmagovalec Hitachi (strani: 1 2 )

Oddelek: Novice / Diski
6125817 (21789) ZigaZiga

Več podobnih tem