» »

Okvara podatkov v DDR3 zaradi vpliva sosednjih celic

Okvara podatkov v DDR3 zaradi vpliva sosednjih celic

Slo-Tech - Raziskovalci s Carneige Mellon University (CMU) in iz Intelovih laboratorijev so ugotovili, da je večina pomnilniških modulov DDR3 ranljiva na tako imenovano row hammer napako (Intelov patentirani izraz). Gre za posledico dizajna in miniaturizacije pomnilniških celic na čipih in ne programsko ranljivost. Problem je poznan že nekaj časa, šele nedavno pa se je pokazala njegova razširjenost in možnost zlorabe za napade iz virtualk.

Za varnost računalniških sistemov je nujno potrebna učinkovita izolacija delov pomnilnika, ki so dostopni različnim procesom z različnimi privilegiji. Pri row hammer gre zato, da veliko število dostopov do iste vrstice (problematičen je ukaz activate, ki odpre vrstico) v kratkem času povzroči težave v sosednjih vrsticah (disturbance error), kar vodi do izgube oziroma spremembe podatkov. Tam se lahko biti spremenijo (obrnejo), ker parazitski tokovi ob dostopu do vrstice v okolici povzročajo težave. To je zlasti pogosto, kadar določen naslov v pomnilniku uporablja več procesov. Gre za sklopitev sosednjih vrstic (inter-cell coupling, row-row coupling), ki se je zaradi miniaturizacije pojavila po letu 2010. To ni eksotična napaka, ampak pogosta in predvidljiva okvara podatkov, medtem ko celice fizično ostanejo brezhibne, zaradi česar je detekcija otežena.

Preverili so 129 pomnilniških modulov in odkrili, da je ranljivih kar 110; vsi so bili proizvedeni po letu 2010. Pred tem letom težav ni bilo, po letu 2013 pa so ranljivi vsi novi moduli. Pojav ni izrazito temperaturno odvisen, je pa zelo ponovljiv oziroma ga je mogoče enostavno reproducirati. To je problem, ker omogoča povsem strojno manipulacijo podatkov v pomnilniku, do katerih program sicer logično nima dostopa.

Pametnih rešitev ni, je pa mogoče z nekaterimi ukrepi zmanjšati verjetnost za obrnitev bita. Mogoče je omejiti dostopni interval, torej da mora med zaporednima dostopa do iste vrstice (row) preteči najmanj nekaj časa, kar seveda negativno vpliva na hitrost oziroma zmogljivost. Druga varianta je povečati pogostost osveževanja RAM-a, kjer pa spet vsak dodatni cikel povzroči povišanje porabe energije in padec hitrosti. ECC ni čudežna paličica, ker popravlja le en obrnjen bit, medtem ko omenjena napaka često obrne več bitov. Na koncu je edina trajna rešitev izdelava boljših čipov, kar pa predstavlja visoke stroške.

Intel in CMU v vmesnem času predlagata rešitev z imenom PARA (Probabilistic Adjacent Row Activation). Po vsakem dostopu do vrstice se z nizko verjetnostjo p (recimo 0,005) osveži naključno izbrana sosednja vrstica, kar je v testiranih pogojih zmanjšalo pogostnost napak na eno na leto. S prilagajanjem p je mogoče poskrbeti za poljubno ojačitev ali oslabitev zaščite. Taka rešitev v povprečju upočasni sistem za manj kot odstotek in praktično ne poveča poraba energije ter ne potrebuje nobenih dragih sprememb dizajna ali čipov.

55 komentarjev

«
1
2

filip007 ::

Ne razumem, za kaj se gre, za varnostni problem ali temperaturni ali kaj drugega?
Palačinka z Ajvarjem in stopljenim sirom v mikrovalovki.

fosil ::

Varnostni problem.
Tako je!

terryww ::

bi bilo zanimivo vedet kake dostopne vzorce imajo razne hpc kode. in kolko so potem te simulacije še zanesljive.
It is the night. My body's weak.
I'm on the run. No time to sleep.

MrBrdo ::

Kaj pa naj bi predstavljala tale zadnja slika? :D
MrBrdo

Brane22 ::

Spet ena posledica poebgle pohlepe kapitalizma brez ustrezne kontrole.

Ker teh napak uporabnik ne vidi, ko jih je*e. Koneckoncev mogoče zaradi tega prodajo še kak stick več uproabniku, ki bo mislil,d a mu je "stari" crknil. In da lahko vsake kvatre dajo na nalepko 100MHz več

IMHO zrelo za skupinske tožbe opeharjenih uporabnikov. Take stvari se ne bi smele dogajati.

Brane22 ::

Niče ne piše o DDR4. Mogoče so upadenjali zadevo, mogoče pa ej zaradi manjših geometrij in napetostnih margin tam problem še slabši...

Je pa to dobra streznitev in demonstrracija nujnosti javnega vpogleda v tako v HW kot v SW.

Pusti industrji da rešuje probleme po svoje in brez nadzora in kmalu ti zrastejo take cvetke.

Tale je recimo potihem minirala sisteme z ECC RAM. Nabaviš palčke, plačaš jih več za manjšo hitrost in si misliš "to je to, moji podatki v RAM so sedaj varni". Nakar te useka bomba totalka mimo vseh teh plačanih varnostnih zaščit, zato ker je nekdo pustil ogromno luknjo, kjer je ne bi smelo biti.

Zgodovina sprememb…

  • spremenilo: Brane22 ()

Nummy ::

Brane22 je izjavil:

Niče ne piše o DDR4. Mogoče so upadenjali zadevo, mogoče pa ej zaradi manjših geometrij in napetostnih margin tam problem še slabši...

Je pa to dobra streznitev in demonstrracija nujnosti javnega vpogleda v tako v HW kot v SW.

Pusti industrji da rešuje probleme po svoje in brez nadzora in kmalu ti zrastejo take cvetke.

Tale je recimo potihem minirala sisteme z ECC RAM. Nabaviš palčke, plačaš jih več za manjšo hitrost in si misliš "to je to, moji podatki v RAM so sedaj varni". Nakar te useka bomba totalka mimo vseh teh plačanih varnostnih zaščit, zato ker je nekdo pustil ogromno luknjo, kjer je ne bi smelo biti.

Sam je še vedno bistvena razlika med ECC in navadnim RAM-om. Odkar imam računalnik z ECC RAM-om je zadeva bistveno bolj stabilna, sesuva se samo na pol spisan software (amd driverji in kompanija,...).

Tomay ::

Nummy je izjavil:


Sam je še vedno bistvena razlika med ECC in navadnim RAM-om. Odkar imam računalnik z ECC RAM-om je zadeva bistveno bolj stabilna, sesuva se samo na pol spisan software (amd driverji in kompanija,...).


Tudi sam lahko potrdim da ecc pomaga. Čeprav je žalost da Z serije pri intelu ne podpirajo ecc rama. X serija pa je še dražja. Mogoče bo ceneje kar server kupit. :)
Voodoo 4Ever

technolog ::

O čem flancata? ECC ne vpliva na stabilnost za enga takega navadnega uporabnika.

To je za strežniške sisteme, kjer je ključna integriteta podatkov.

Nummy ::

technolog je izjavil:

O čem flancata? ECC ne vpliva na stabilnost za enga takega navadnega uporabnika.

To je za strežniške sisteme, kjer je ključna integriteta podatkov.

Seveda da vpliva na stabilnost sistema.
Prej sem na računalniku kasiral vsake toliko časa kak exception glede spomina, blue screen, program/system crash, zdej se usuje samo če je software res slabo spisan. Sicer pa kdo je tu govoril o navadnem uporabniku? Jaz govorim zase, in ECC je veliko bolje kot prej brez. Manj napak v programih, bolj stabilen sistem = se splača. Če se pa to drugim splača mi pa dol visi.

hojnikb ::

si ziher, da je bil problem v non ecc ramu in ne zanič sistemu (namreč če si prešaltal na ecc, si verjetno tudi menjal cel sistem..)
#brezpodpisa

Tomay ::

Seveda so komponente ki podpirajo ecc "boljše". Včasih si lahko na navadno plato dal ecc rame, zdaj pa to podpirajo samo top shit plate. Verjetno pa vpliva na stabilnost sistema, podobno kot raid pri diskih. Čeprav se taka napaka pojavi redko pa v sistemih, ki laufajo 14/7 to opazijo. (vsaj statistično). Mogoče je samo občutek, da je sistem bolj stabilen, če ima ecc ram.
Voodoo 4Ever

hojnikb ::

Seveda so komponente ki podpirajo ecc "boljše". Včasih si lahko na navadno plato dal ecc rame, zdaj pa to podpirajo samo top shit plate.

kar seveda ni res. Danes lahko laufaš cheapo plato in en xeon e3 procesor brez problema z ecc ramom.
#brezpodpisa

Nummy ::

hojnikb je izjavil:

si ziher, da je bil problem v non ecc ramu in ne zanič sistemu (namreč če si prešaltal na ecc, si verjetno tudi menjal cel sistem..)

Skor ziher, ker do danes še nisem doživel memory errorja v stilu (memory cannot be read/written at #address). Prav tako ni errorjev kar se tiče grafike, zvoka,... Prej se mi je zgodilo, da sem gledal video, naredil kak preskok ali stisnil pavzo in prišel čez nekaj časa nazaj in dal play in se je playerju zmešalo ali pa je bila slika popačena. Zdej se to zgodi, samo ko je file dejansko frderban že na disku.

hojnikb ::

dj izklopi enkrat ecc in poročaj, če se ti kej od našteteka še vedno dogaja :)
#brezpodpisa

Jackass ::

Zanimivo je, če ugotoviš s kakšnim zaporedjem bitov spremeniš določen bit v sosednji celici. V tem primeru res lahko shekaš marsikaj.
jAcKaSS

srus ::

Proizvajalci čipov so začeli uporabljati taktiko farmacevtske industrije.

Prodajajo zdravila za neobstoječe bolezni ali bolezni, ki so posledica drugih zdravil. Dopovedujejo ti, da imaš probleme, ki se jih ne zavedaš in ti ponujajo rešitve zanje.

54j0 ::

Odmevna novica, in to ravno zdaj, ko se pripravljamo na nov pomnilniški standard v domačih računalnikih. Čimprej bo treba zamenjati sisteme, da nas ne bo obremenjevala napaka, ki je do sedaj ni nihče opazil.

Brane22 ::

Celica je v DDR4 podobna, če ne celo ista kot v DDR3.

Kar se napak tiče, ni ta v ničemer posebna. Čisto komot se lahko zgodi, da jo namenoma samo malo poflikajo,d a je manj z vidna, mogoče celo z namenom prodajati "izboljšave" na to temo tudi v prihodnosti.

Treba je insistirati na ustreznosti opreme podanim specifikacijam.

Ne verjamem, da je ta zadeva bila skrivnost proizvajalcem DRAM čipov še veliko preden je Intel podal tole, samo niso govorili o tem. Zgodi se,d a imajo serije napake, ampak da ima toliko izdelkov tako katastrofalno luknjo, proizvajalci pa so o tem tiho, pa ne bi smelo iti skozi brez posledic.

Senitel ::

Nummy je izjavil:

Skor ziher, ker do danes še nisem doživel memory errorja v stilu (memory cannot be read/written at #address).

ECC te ščiti pred flipanjem posameznih bitov zaradi zunanjih razlogov. Preprečuje torej, da boš v celico zapisal 1 in kasneje iz nje prebral 129. ECC te ne ščiti pred defektnimi celicami. Za take primere se uporablja mehanizem, ki se mu reče garancija.
Fino bi tudi bilo, če bi dejansko prebral novico kjer lepo piše, da te ECC pred tem ne ščiti, ker mehanizem lahko reši en pokravjen bit in ne večih.

Nummy ::

Senitel je izjavil:

Nummy je izjavil:

Skor ziher, ker do danes še nisem doživel memory errorja v stilu (memory cannot be read/written at #address).

ECC te ščiti pred flipanjem posameznih bitov zaradi zunanjih razlogov. Preprečuje torej, da boš v celico zapisal 1 in kasneje iz nje prebral 129. ECC te ne ščiti pred defektnimi celicami. Za take primere se uporablja mehanizem, ki se mu reče garancija.
Fino bi tudi bilo, če bi dejansko prebral novico kjer lepo piše, da te ECC pred tem ne ščiti, ker mehanizem lahko reši en pokravjen bit in ne večih.

Fino bi bilo, če bi razumel kaj sploh je ECC...

Evo da si malo prebereš:
ECC memory @ Wikipedia

ECC memory maintains a memory system immune to single-bit errors: the data that is read from each word is always the same as the data that had been written to it, even if one or more bits actually stored have been flipped to the wrong state.


Bit se ti pa lahko flip-a kadarkoli. Z ECC RAM-om sedaj ne vidim več memory errorjev, ki sem jih napisal, prav tako vse ostalo dela brez napak.

hojnikb ::

Bit se ti pa lahko flip-a kadarkoli. Z ECC RAM-om sedaj ne vidim več memory errorjev, ki sem jih napisal, prav tako vse ostalo dela brez napak.

Še vedno pa nemoreš rečit, da je delovanje brez napak sedaj zaradi ECCja in ne zaradi defeketnega sistema, ki si ga mel prej...
#brezpodpisa

Unilseptij ::

Nummy je izjavil:

Senitel je izjavil:

Nummy je izjavil:

Skor ziher, ker do danes še nisem doživel memory errorja v stilu (memory cannot be read/written at #address).

ECC te ščiti pred flipanjem posameznih bitov zaradi zunanjih razlogov. Preprečuje torej, da boš v celico zapisal 1 in kasneje iz nje prebral 129. ECC te ne ščiti pred defektnimi celicami. Za take primere se uporablja mehanizem, ki se mu reče garancija.
Fino bi tudi bilo, če bi dejansko prebral novico kjer lepo piše, da te ECC pred tem ne ščiti, ker mehanizem lahko reši en pokravjen bit in ne večih.

Fino bi bilo, če bi razumel kaj sploh je ECC...

Evo da si malo prebereš:
ECC memory @ Wikipedia

ECC memory maintains a memory system immune to single-bit errors: the data that is read from each word is always the same as the data that had been written to it, even if one or more bits actually stored have been flipped to the wrong state.


Bit se ti pa lahko flip-a kadarkoli. Z ECC RAM-om sedaj ne vidim več memory errorjev, ki sem jih napisal, prav tako vse ostalo dela brez napak.

Na istem linku tudi piše:

An ECC-capable memory controller as used in many modern PCs (mostly medium- to high-end workstation and server-class) can detect and correct errors of a single bit per 64-bit "word" (the unit of bus transfer), and detect (but not correct) errors of two bits per 64-bit word. The BIOS in some computers, when matched with operating systems such as some versions of Linux, Mac OS, and Windows,[citation needed] allows counting of detected and corrected memory errors, in part to help identify failing memory modules before the problem becomes catastrophic.


Tako, da trditev o zaščiti pred enim spremenjenim bitom (na prebrano besedo) ni netočna.

Isotropic ::

Nummy je izjavil:

Brane22 je izjavil:

Niče ne piše o DDR4. Mogoče so upadenjali zadevo, mogoče pa ej zaradi manjših geometrij in napetostnih margin tam problem še slabši...

Je pa to dobra streznitev in demonstrracija nujnosti javnega vpogleda v tako v HW kot v SW.

Pusti industrji da rešuje probleme po svoje in brez nadzora in kmalu ti zrastejo take cvetke.

Tale je recimo potihem minirala sisteme z ECC RAM. Nabaviš palčke, plačaš jih več za manjšo hitrost in si misliš "to je to, moji podatki v RAM so sedaj varni". Nakar te useka bomba totalka mimo vseh teh plačanih varnostnih zaščit, zato ker je nekdo pustil ogromno luknjo, kjer je ne bi smelo biti.

Sam je še vedno bistvena razlika med ECC in navadnim RAM-om. Odkar imam računalnik z ECC RAM-om je zadeva bistveno bolj stabilna, sesuva se samo na pol spisan software (amd driverji in kompanija,...).

nimam ecc rama in nimam takih problemov.

Jst ::

"Okdar imam ECC imam uptipme več mesecev!!!"

"Največja investicija je bila ECC RAM,..."


---

Takšnih debat se spomnim 15 let nazaj. Kakšen Bullshit. Ljudem, ki se je prej sesuval calc.exe (in pasjansa) na Win98, so potem pisali vse živo, kako jim "sedaj z ECC ramom" vse dela, kar jim prej ni.

Dokaza pa niso uspeli sproducirati nobenega.

Predlagam isto kot takrat: algoritem, ki računa decimalke pi ali fibonaccija. Z vklopljenim ECC in z izklopljenim. "Brez GUI OSa" (DOS recimo), alociranje za eno palčko ECC rama in se potem primerja.

Lahko gremo extreme in kupimo 2 enaka SSDja manjše velikosti (tisti, ki so drobiž), in algoritem, ki direktno piše, sector by sector. Če bo razlika, plačam SSDja jaz, če je ne bo, plača Challenger.

Mogoče se bo 15 let pozneje kdo javil?
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

Jst ::

Ali bodo isti izgovori?

"Imam bolj produktivno delo." "Komu se pa da to delati, če pa vidimo, da je sedaj vse drugače." "Kupi sam in probaj."


---

Če kupiš ECC RAM, ga kupiš z razlogom, a ne? Ponavadi je ta razlog integriteta podatkov. In za takšen sistem se ne bo kupovalo Consumer zadev, kot so Desktop CPU, cheap plata,... Ampak komponente iz Enterprise segmenta. Za takšen sistem se potem pričakuje, da bo delal 24/7/356 in če se pojavi okvara, se palčko rama hotswappa (zamenja na živem sistemu).

Torej za Workstatione, kjer se obdeluje kakšne občutljive podatke (finančne recimo), ali cluster, je ECC RAM edini smiselen, ker s tem dobiš tudi druge zanesljivejše komponente (in lastnosti (hotswapping)), ki so namenjene neprestanem delu.

Da bodo pa AMD gonilniki "zanesljivejši", pa trdijo samo ECC Believerji. Sem mislil, da jih po tolikem času ne bo več, a sem se motil. Po eni strani zaradi pričakovanja, da se bo integriteta podatkov v RAMu v prihodnosti zagotavljala ali drugače ali postala standard v vsakem modulu RAMa.
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

AndrejO ::

ECC je za "fizikalce" verjetno res stvar osebne ozbire, vendar pa so v preteklosti zbrani podatki pokazali, da imaš v dovolj veliki populaciji tudi do 8% modulov, za katere je bil v letu dni zabeležen bit-flip (torej correctable error).

Kolikšna je možnost, da ti to "sesuje" računalnik, je zanimivo vprašanje iz statistike. Žal pa je ne moreš odpisati, ne glede na svoje osebne izkušnje.

Meni osebno tako ECC pomeni toliko, da lahko zanesljivo odkrijem defekten modul, če ga takšnega dobim in RMA je v takšnih primerih zelo enostaven. S tem mi je kakšna težava verjetno prihranjena, nisem pa tako pogumen, da bi lahko čez palec izjavljal kako je to super duper.

YMMW.

technolog ::

MTBF več kot 12 let, torej. In tukaj je nekaj ljudi, ki sveto trdijo, da so samo na ECC rame prešaltal in se je sistem nehal sesuvat.

AndrejO ::

Žal račun ni tako trivialen, ker pri bit flipih ni govora o neodvisnih dogodkih. Enostavno povprečje ti pove možnost, da naletiš na defekten modul, ne pove ti pa verjetnosti, da bo prišlo do naključne napake na tvojem modulu.

Kdor zadane na tej loteriji nesreče bo imel visoki verjetnost kraha sistema praktično vsak teden in menjava modulov bo "magično" rešila težavo. Žal pa odsotnost ECC zakomplicira ugotavljanje, če je problem sploh v RAM-u, in kje je, če je.

Zato YMMW.

Nummy ::

hojnikb je izjavil:

Bit se ti pa lahko flip-a kadarkoli. Z ECC RAM-om sedaj ne vidim več memory errorjev, ki sem jih napisal, prav tako vse ostalo dela brez napak.

Še vedno pa nemoreš rečit, da je delovanje brez napak sedaj zaradi ECCja in ne zaradi defeketnega sistema, ki si ga mel prej...

Sistem je enak kot prej oz. enako gor naloženo kot je bilo na prejšnjem računalu edina razlika so driverji ter seveda hardware. Driverji za grafo so sedaj občutno slabši in edina stvar, ki še "zajebava" celoten sistem.

Jst je izjavil:


Da bodo pa AMD gonilniki "zanesljivejši", pa trdijo samo ECC Believerji. Sem mislil, da jih po tolikem času ne bo več, a sem se motil. Po eni strani zaradi pričakovanja, da se bo integriteta podatkov v RAMu v prihodnosti zagotavljala ali drugače ali postala standard v vsakem modulu RAMa.

Jaz nisem nikjer rekel, da so MAD driverji sedaj zanesljivejši, ker nikoli niti niso bili zanesljivi. Vse BSOD-e in sesutja sistema sem doživel ravno s strani glupih AMD driverjev, kljub ECC RAM-u. Ampak sedaj ne dobivam več napak v smislu "memory location cannot be read/written". Prej sm jih dobival polno. Prav tako nimam več napak v video posnetkih, če premikam naprej/nazaj.

Zgodovina sprememb…

  • spremenilo: Nummy ()

hojnikb ::

Sistem je enak kot prej oz. enako gor naloženo kot je bilo na prejšnjem računalu edina razlika so driverji ter seveda hardware. Driverji za grafo so sedaj občutno slabši in edina stvar, ki še "zajebava" celoten sistem.

Torej hardware imaš kompletno drug... Si kdaj pomislil, da je bil prejšn sistem (=hardware) defektn ?
#brezpodpisa

Nummy ::

hojnikb je izjavil:

Sistem je enak kot prej oz. enako gor naloženo kot je bilo na prejšnjem računalu edina razlika so driverji ter seveda hardware. Driverji za grafo so sedaj občutno slabši in edina stvar, ki še "zajebava" celoten sistem.

Torej hardware imaš kompletno drug... Si kdaj pomislil, da je bil prejšn sistem (=hardware) defektn ?

Ne ker je še vedn v uporabi in večinoma dela, samo dobil sem ene 2x:
CLOCK_WATCHDOG_TIMEOUT
Vmes pa še ene par takihle sočnih:
 lawl?

lawl?


Drgač mašina dela večinoma BP, samo vsake tolk časa se ji mal sfučka u 3pm.
Na novi mašini gor furam enak software, nisem še videl ene podobne napake, samo BSOD zaradi "super" AMD driverjev...

Jst ::

AndrejO: Z vsem, kar si napisal, se seveda strinjam.

Takrat ni noben hotel alocirati par MB, za takrat masivnih 32 MB na palčko, da bi probal decimalke pi. Zato se mi dvignejo dlake, ko po toliko letih slišim iste mite. "Win98 se mi sesuva!" Odgovor: "Kupi ECC!" do teorij, kako zaradi ECC vse dela hitreje,... Pozabili so pa recimo to, da so Maci imeli takrat SCSI diske, kateri so imeli, poleg višje hitrosti, tudi sami diski boljši ECC.

---


edit: Takšno napako, kot je na sliki, ti jaz "napišem" v Visual Studio v eni minuti. Naredim en exception, jo ujamem in izpišem.
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

Zgodovina sprememb…

  • spremenil: Jst ()

hojnikb ::

Nummy je izjavil:

hojnikb je izjavil:

Sistem je enak kot prej oz. enako gor naloženo kot je bilo na prejšnjem računalu edina razlika so driverji ter seveda hardware. Driverji za grafo so sedaj občutno slabši in edina stvar, ki še "zajebava" celoten sistem.

Torej hardware imaš kompletno drug... Si kdaj pomislil, da je bil prejšn sistem (=hardware) defektn ?

Ne ker je še vedn v uporabi in večinoma dela, samo dobil sem ene 2x:
CLOCK_WATCHDOG_TIMEOUT
Vmes pa še ene par takihle sočnih:
 lawl?

lawl?


Drgač mašina dela večinoma BP, samo vsake tolk časa se ji mal sfučka u 3pm.
Na novi mašini gor furam enak software, nisem še videl ene podobne napake, samo BSOD zaradi "super" AMD driverjev...

torej si fasal defektne module. Dej za foro požen enkrat memtest86, da vidiš pri čem si :)
#brezpodpisa

Mesar ::

> torej si fasal defektne module. Dej za foro požen enkrat memtest86, da vidiš pri čem si :)

modul po modul brez dual channel
Your turn to burn!

Nummy ::

hojnikb je izjavil:

Nummy je izjavil:

hojnikb je izjavil:

Sistem je enak kot prej oz. enako gor naloženo kot je bilo na prejšnjem računalu edina razlika so driverji ter seveda hardware. Driverji za grafo so sedaj občutno slabši in edina stvar, ki še "zajebava" celoten sistem.

Torej hardware imaš kompletno drug... Si kdaj pomislil, da je bil prejšn sistem (=hardware) defektn ?

Ne ker je še vedn v uporabi in večinoma dela, samo dobil sem ene 2x:
CLOCK_WATCHDOG_TIMEOUT
Vmes pa še ene par takihle sočnih:
 lawl?

lawl?


Drgač mašina dela večinoma BP, samo vsake tolk časa se ji mal sfučka u 3pm.
Na novi mašini gor furam enak software, nisem še videl ene podobne napake, samo BSOD zaradi "super" AMD driverjev...

torej si fasal defektne module. Dej za foro požen enkrat memtest86, da vidiš pri čem si :)

Already done, RAM ni defekten, prav tako HW ne, računalnik še vedno dela BP, samo občasno ga malo defekt rukne, tak ene parkrat na leto... meni se je prvi BSOD pojavil 2x v enem letu, tadrugi "error" pa se mi je pojavil samo ene parkrat. Včasih ni mogel pisati v RAM, včasih ni mogel brati. Sedaj ko imam ECC, teh errorjev in BSOD-ov nimam več (zaenkrat 9 mesecev & counting...).

johnnyyy ::

hojnikb je izjavil:

torej si fasal defektne module.

Ali pa so se poškodovali pri vgradnji (zaradi ESD).

Nummy ::

johnnyyy je izjavil:

hojnikb je izjavil:

torej si fasal defektne module.

Ali pa so se poškodovali pri vgradnji (zaradi ESD).

moduli so 100% OK, ker so prestali dvodnevni preizkus. Najprej sm tud jaz mislu, da so moduli defektni, ampak niso.

Se ne morte sprijaznit, da se dogajajo bit napake na navadnem RAM-u al kwa???

technolog ::

Se. Mogoče kaka na leto.

AndrejO ::

technolog je izjavil:

Se. Mogoče kaka na leto.

Si kdaj prebral in razumel raziskavo o zanesljivosti RAM-a?

TL;DR: Če se na čipu pojavi napaka, je zelo velika verjetnost, da se bo napaka ponovila v roku nekaj dni v isti ali sosednji celici. Težave tudi ne korelirajo s temperaturo. Kozmično sevanje tudi ni resna (naključna) težava.

To pomeni, da lahko imaš RAM, ki ti bo lepo delal teden ali dva, potem pa se mu bo "sfuzlalo", dokler ne boš računalnika hladno resetiral. Potem pa jovo na novo.

Zraven pa imaš lahko žnj. drugih modulov in čipov, ki so brez napake in ne bodo v življenju računalnika imeli niti eno napako.

Prej opisani simptomi so skladni s temi ugotovitvami raziskav. To lahko pomeni, da se bo nekomu računalnik sesuval praktično vsak teden, njegovim 9 sosedom pa nikoli in verjetno ne bodo utrpelii niti enega bit flipa po več let zaporedoma.

Zgodovina sprememb…

  • spremenil: AndrejO ()

technolog ::

Lej,

on je rekel, da je zamenjal ram za ECC in je sistem začel normalno delat. Jst trdim, da ECC pri tem nima nič. Ker če je tako, kot ti trdiš, bila na čipu napaka, bi tudi menjava za nov NON-ECC modul odpravila težavo.

Ja?

Zgodovina sprememb…

AndrejO ::

technolog je izjavil:

Lej,

on je rekel, da je zamenjal ram za ECC in je sistem začel normalno delat. Jst trdim, da ECC pri tem nima nič. Ker če je tako, kot ti trdiš, bila na čipu napaka, bi tudi menjava za nov NON-ECC modul odpravila težavo.

Ja?

Ne.

Ni rečeno, ker lahko prihaja do napake tudi na vodilu, kar je znova nekaj, kar ti ECC pomaga prebroditi, z ne-ECC pa ne veš pri čemu si.

Implikacija v tem primeru ni ekvivalenca. ECC pomaga rešiti drugačen nabor težav, kot pa samo menjava modulov. Nekatere izmed teh težav so v presečni množici, ne pa vse.

Zato tvoja trditev ni nujno pravilna.

johnnyyy ::

AndrejO je izjavil:

Ni rečeno, ker lahko prihaja do napake tudi na vodilu, kar je znova nekaj, kar ti ECC pomaga prebroditi, z ne-ECC pa ne veš pri čemu si.

Po drugi strani je lahko ECC potuha proizvajalcem matičnih plošč. Če je plata slabe izdelave (ali slabega dizajna) potem lahko te napake EEC odpravi, dokler jih ni preveč. Na specifikacije pa lahko dodajo podporo za hitrejši DDR z ECC.

AndrejO ::

Dvomim. Če buljim v komponento, kjer mi ECC redno sporoča, da popravlja napake, je to vsaj zame avtomatično RMA. Zakaj bi gledal nekaj, kar je očitno okvarjeno in me še cel prijazno obvešča, da je okvarjeno? Kje bi tukaj bila logika?

johnnyyy ::

AndrejO je izjavil:

Dvomim. Če buljim v komponento, kjer mi ECC redno sporoča, da popravlja napake, je to vsaj zame avtomatično RMA. Zakaj bi gledal nekaj, kar je očitno okvarjeno in me še cel prijazno obvešča, da je okvarjeno? Kje bi tukaj bila logika?

Proizvajalec plošče napiše inicializacijo za DDR in konfiguracijo enote, ki skrbi za komunikacijo z DDR. Do kakšnih podatkov ti bo dal dostop oz. koliko so ti podatki resnični je drugo vprašanje. Rezultat je poceni plata z zelo dobrimi karakteristikami (če se sistem sesuje 2x na leto - večino uporabnikov tega sploh ne bo opazilo).

hojnikb ::

o kaki inicializaciji ti ?
ddr3 je vezan direkt na memory controller od proca. Nwm zakaj bi rabu še kej vmes, razn podatkovne linije identičnih dolžin..
#brezpodpisa

Zgodovina sprememb…

  • spremenil: hojnikb ()

johnnyyy ::

hojnikb je izjavil:

o kaki inicializaciji ti ?

Memory controller (EMI - extended memory interface) je del periferije procesorja. Po navadi procesor omogoča več tipov DDR pomnilnika (LV, LP ali navaden), z inicializacijo konfiguriraš to periferijo. S tem se nastavi napetost, clock, refresh rate, timingi, velikost čipov, banke, delayi itd. To naredi BIOS (UEFI), ki ga napiše proizvajalec plate (če je tvoj procesor kompatibilen z DDR4 proizvajalec plošče pa nima inicializacije na tej plošči, DDR4 ne bo delal - če je plata dobre izdelave, pa lahko proizvajalec izda update s podporo). Z OS lahko vidiš nekatere stvari, ki se dogajajo na low levelu prek ACPI (večino stvari pa je skritih).
Zato pravim, da bi lahko bil ECC tudi potuha proizvajalcem plošč, saj se za tem lahko skrije tudi slab design.

hojnikb je izjavil:

ddr3 je vezan direkt na memory controller od proca. Nwm zakaj bi rabu še kej vmes, razn podatkovne linije identičnih dolžin..

Lahko je vmes še impedančno usklajevanje.

Jst ::

>Ni rečeno, ker lahko prihaja do napake tudi na vodilu,

Hja, ampak potem kljub ECC RAMu ne boš vedel, da je pri "odhodu" podatkov prišlo do napake, zaradi RAMA samega. (Čudno napisano, a ne vem, kako bi se drugače izrazil.) Zato so drugi mehanizmi, za katere lahko dlakocepimo, če spadajo "pod ECC" ali ne. ECC RAM (kot si jaz razlagam delovanje mašine / komponent) skrbi samo zase - da je integriteta podatkov zagotovljena. Da v teoriji, ko vpišeš x bitov, da boš dobil teh x bitov enakih nazaj. Če je pa v Mem kontrolerju napaka, se bo hitro videlo, da so napake prihaja vedno na istem mestu, če je nekaj narobe samo na nekaj linijah.
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

Jst ::

>da so napake prihaja vedno na istem mestu

Recimo Channel A, Bank 1.

V takšem primeru ECC RAM nima nobene vloge.
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|
«
1
2


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Napad na pomnilnik Rowhammer omogoča krajo šifrirnih ključev

Oddelek: Novice / Znanost in tehnologija
134082 (2325) MrStein
»

Napad rowhammer deluje tudi androidnih telefonih

Oddelek: Novice / Varnost
75766 (3953) srus
»

Tudi DDR4 in DDR3 z ECC ranljiva na obračanje bitov

Oddelek: Novice / Varnost
146963 (5551) sodnicaN
»

Zloraba spreminjanja bitov v pomnilniku zaradi branja tudi v praksi

Oddelek: Novice / Varnost
810355 (9026) MrStein
»

Makroji v excelu

Oddelek: Programska oprema
62296 (2190) smetko

Več podobnih tem