» »

Znanstveni podatki izginjajo

Znanstveni podatki izginjajo

Slo-Tech - Naslednja težava, s katero se soočamo v znanosti (in še marsikod), je trajnost oziroma dolgoživost podatkov. Zanemarimo tistih nekaj škandalov, ko so brezvestni raziskovalci ponarejali rezultate raziskav objavljali neresnične, izmišljene ali prerejene podatke. Tudi povsem legitimni podatki imajo težavo, da počasi izginjajo v digitalna večna lovišča. Kanadski raziskovalci so ta problem pogledali in ugotovili, da je izjemno razširjen in obsežen (znanstveni članek).

Ohranjanje digitalnih podatkov je velik problem na vseh področjih, tako domače hranjenje fotografij kot vzdrževanje arhivov v podjetjih. Po eni strani podatke vsake toliko časa preseneti odpoved strojne opreme, ko lahko pomagajo le varnostne kopije, po drugi strani pa moramo skrbeti za redno presnemavanje na nove nosilce. Kar je do danes obstalo na 5,25-palčnih disketah, se še da rešiti, a se bo treba precej potruditi, kakšne eksotične tračne enote pa mogoče niti ne več. Potem so tu tudi neumna varčevanja, kot je presnemavanje trakov, kar so svoj čas počeli ne le RTV in BBC, ampak tudi NASA.

Težava je, da terabajti znanstvenih podatkov izginjajo hitro. V znanstvenih člankih mnogokrat objavimo le grafe, ki prikazujejo podatke (pa še to ne nujno vseh), medtem ko na surove podatke kar pozabimo. Dolgočasnih tabel v članku res ne bo nihče bral, a tu in tam se najde kdo, ki bi podatke nujno potreboval. Z ustreznimi orodji (recimo Engauge) se da iz grafov potegniti zelo dobre približke, a kaj pa ko bi želeli eksaktne meritve prvotnega avtorja? Jih ta še ima?

Kanadčani so ugotovili, da večinoma ne. Zato so izbrali 516 člankov, ki so bili objavljeni v obdobju od let 1991-2011 in njihove avtorje prosili, naj jim pošljejo surove podatke. Starejši kot je bil članek, manj je bilo možnosti, da so te podatke dobili. Povprečje: dobili so 23 odstotkov podatkov. Po eni strani je z leti upadala možnost, da jih avtor še ima, po drugi strani pa so čedalje teže našli te ljudi, ker se elektronski naslovi in telefonske številke menjajo, ljudje umirajo itd. Facebooka za raziskovalce pred 20 leti seveda še ni bilo, medtem ko danes lahko omrežja, kot sta LinkedIn in še bolj ResearchGate, precej pomagajo pri lociranju znanstvenikov, zlasti bolj nomadskih duš, ki se redno selijo po državah in univerzah.

Pregovorno raztreseni znanstveniki imajo svoje arhive urejene bolj površno, vsi pa tudi niso na tekočem z najnovejšo tehnologijo, da bi ob tem še redno skrbeli za varnostno kopiranje in arhiviranje ter presnemavanje na novejše medije. In po smrti znanstvenikov je sila težko najti človeka, ki bo vedel, kam in kako je predhodnik vse to shranil. Tako večina podatkov izginja.

Porekli boste, da je bistvo tako ali tako zajeto v članku. Res je, a vseeno je lepo imeti vse zbrane podatke na enem mestu. Pa ne zato, da bi lovili znanstvenike na podrobnostih (marsikdaj se kakšna podrobnost ne objavi in kakšen graf pač ne nariše, nariše malo drugače ali kakšna točka izpusti, da so rezultati boljši ali lepši - najbolj razvpiti, vprašanje pa tudi če najbolj krivi, so seveda farmacevti, ki želijo na vsak način na trg prodati novo zdravilo), ampak ker jih včasih nujno potrebujemo. Bodisi za primerjavi bodisi za nove raziskave. Nove tehnologije in orodja dostikrat omogočijo, da iz obstoječih podatkov potegnemo nove informacije in zaključke, ko jih obdelamo še na načine, s katerimi jih predhodno nismo mogli.

Ena izmed rešitev tega problema je, da revije ob objavi zahtevajo priložitev vseh surovih podatkov, četudi teh številk potem v končnem članku ni. Nekatere revije to že počno, bodisi v obliki tako imenovanega Supplement Information bodisi povsem ločeno. S tem smo problem sicer le prestavili v druge roke, a načeloma ga je laže reševati centralizirano na institucionalni ravni, kot pa parcialno. In tudi revije se vendarle selijo in umirajo redkeje kot ljudje. Po drugi strani bi lahko te podatke zbirali tudi financerji, saj je veliko znanosti financirane iz državnih (ali evropske) blagajn. V vsakem primeru je njihova ohranitev v javnem interesu.

20 komentarjev

Izi ::

Ja, če nekoč ostanemo brez elektrike, se bo ohranilo samo tisto kar je v knjigah. Pa še knjige zdržijo samo par tisočletij, preden strohnijo v prah. Podatki vklesani v kamen zdržijo nekaj 10 tisoč let. Več pa ne zdrži prav nič.
Čas prej ali slej izbriše VSE.

opeter ::

Ja, pol bo tak kot v Book of Eli ipd. postapokaliptičnih zgodbah ...
Hrabri mišek (od 2015 nova serija!) -> http://tinyurl.com/na7r54l
18. november 2011 - Umrl je Mark Hall, "oče" Hrabrega miška
RTVSLO: http://tinyurl.com/74r9n7j

Dr_M ::

Izi, sej Revolution je uredu serija, ampak tok pa spet ne :>
Bolje kot kamni bi bila kaksna nerjaveca kovina, npr aluminij.

mr1two ::

Aluminij ima nizko tališče in tudi po površini lahko nastanejo packarije. Nebi bil bolši inox? :))

Sicer pa izguba originalnih podatkov ne predstavlja tako velikega problema večini ljudi. Če baziraš na raziskavah nekoga izpred toliko časa, je problem, še posebej, če je metoda pridobivanja podatkov težka(bodisi časovno zaznamovana, bodisi draga za poustvarjanje ali nedostopna-nevarni/redki elementi in pojavi), se pa ob pravi pomoči da vse naredit na novo, če je to res treba.

Pozdravljam odločitev, da se podatke po novem arhivira, spotoma pa lahko tudi ujamejo prekrškarje, ki bi kakorkoli želeli olepšati rezultate. Ne, da se s tem kaj narobe, če avtor to jasno označi(zaradi preglednosti ipd), prikrivanje pa ni lepo.
Uporaba troblje v avtu povzroči krčenje možganov.

energetik ::

Izi je izjavil:

Ja, če nekoč ostanemo brez elektrike, se bo ohranilo samo tisto kar je v knjigah. Pa še knjige zdržijo samo par tisočletij, preden strohnijo v prah. Podatki vklesani v kamen zdržijo nekaj 10 tisoč let. Več pa ne zdrži prav nič.
Čas prej ali slej izbriše VSE.
Eh, brez elektrike se prav lepo vse ohrani. Če te kaj zanima, pa zalaufaš agregat in si skopiraš podatke v primernejšo obliko.
Sicer pa lepo RAID polje, kjer se redno menja pokvarjene diske, pa na vsakih par desetletij pretvori podatke v novejše formate.
No, razen kakšen EMP je lahko težava, za to primer se pa še optično kopijo naredi.

Zgodovina sprememb…

  • spremenilo: energetik ()

Beezgetz ::

vprasanje ki se pa meni poraja je,
komu pa mi to puscamo?
zakaj puscamo?

...ker smo si toliko vsecni, da pokazemo koliko znamo?

najbolj smesno se mi zdi ko ljudje govorijo o neorganskih, ali naksnih nevarnih snoveh, radioaktivnih, nuklearke na planetu (plazma kjer je naj ne bi bilo ali kako ze...),
ko pogledamo CASOVNICO bomo jutri v pozabi... in kaj, ali zdaj kaj pomenimo na casovnici....?

kaj imamo mi od vsega tega znanja?
7 milijard, od tega miliarda lacnih otrok, ali kaksna je ze statistika,
ciste vode nima koliko miliard...?

seveda sem se sam tezkokategorni hipokrat, ravno gledam kaj lahko naredim z novim raspbery pi-jem, se kdo...?
GNU/Linux,
ker si raje lastim svobodni OS,
kot da ukradem tistega ki ni vreden svojega denarja.

BaToCarx ::

Pod water imaš da se izboljšuje http://www.worldometers.info/ .

Kaj ti bo RAID če pa ohranjaš že pokvarjene podatke samo tega še ne veš? :D

Zakonsko naj morajo met 20 let vse podatke o študijah, ki so financirane iz javnih sredstev pa je. Privatne to že delajo tak al tak.

Rias Gremory ::

Poleg RAID še en kul filesystem pa je.
Glorious PC gaming master race https://www.reddit.com/r/pcmasterrace/

Beezgetz ::

ok tole je cisto off topic

o jebela cesta,
a je se kdo obiskal tale batokarxev link?
"Pod water imaš da se izboljšuje",
mislim, prav sram me je da imam bojler...

pa meni je zdaj pritisk cist gor!!!
no saj, kaj sem pa dreznil,
okvirno sem vedel da sem hinavc,
toda tale link ni kul,
prva stvar kar sem pomislil je bilo kul,
statistika, pa se v zivo se premikajo stevilke, super,
sam pol pa vidis stevilo umirajocih... pa to se kar nabira...!!!

ne vem ali si mi polepsal ali unicil dan, bato moj,
toda bookmarkano...
GNU/Linux,
ker si raje lastim svobodni OS,
kot da ukradem tistega ki ni vreden svojega denarja.

Engineer_ ::

Beezgetz je izjavil:

sam pol pa vidis stevilo umirajocih... pa to se kar nabira...!!!


saj se število novorojenih neprimerljivo hitreje zvišuje.

Oberyn ::

V bistvu je vse odvisno od tega, ali se informacija v črni luknji ohrani ali ne. Ker če se ne, nima smisla biti prevelik perfekcionist pri shranjevanju podatkov. Na tem področju je avtoriteta Stephen Hawking. Prebral sem neko njegovo delo o tej problematiki, vendar se mi je zdelo precej nerazumljivo.

Mr.B ::

V bistvu arhivski material, pa to...mileniata...
Voljeno telo ogledalo volilnega telesa.

Lonsarg ::

Tehnologija sploh ni več problem(bila je), zdaj je problem samo še kdo bo dal denar za ohranitev podatkov. Glede na to, da je ta zadeva v javnem in ne privatnem interesu je rešitev samo ena. Država. Vodenje pa raznorazne, najbolje celo mednarodne organizacije.

ST-777 ::

Izi je izjavil:

Podatki vklesani v kamen zdržijo nekaj 10 tisoč let. Več pa ne zdrži prav nič.
Optični plošček z življenjsko dobo milijon let trenutno nosi zastavo trajnosti. :D

"Raziskovalci nizozemske univerze Twente so pripravili zgoščenko namenjeno dolgoročnemu shranjevanju in arhiviranju podatkov, saj njena življenjska doba znaša kar milijon let. Optični plošček je izdelan iz volframa, medtem ko je zaščitna plast iz silicijevega nitrida." Vir: http://www.racunalniske-novice.com/trik...

111111111111 ::

Izi je izjavil:

Ja, če nekoč ostanemo brez elektrike, se bo ohranilo samo tisto kar je v knjigah. Pa še knjige zdržijo samo par tisočletij, preden strohnijo v prah. Podatki vklesani v kamen zdržijo nekaj 10 tisoč let. Več pa ne zdrži prav nič.
Čas prej ali slej izbriše VSE.


Razen facebooka. :P Tam nič ne pobrišejo. :)

wizi ::

Me prav zanima, kaj si lahko pomagaš s ploščkom, ki zdrži 1M let.
Egipčani so odšli pred 3k5, Grki še kasneje, vsi so risali risbice na kamen in v glino, pa še vedno ne znamo prebrati tistega malo kar je ostalo.
Če že poznamo pomen črk, pa ne vemo v katerem jeziku je stvar napisana. Konkretno Linearna A in B iz Krete.
Digitalni jezik je sicer iz 1001110100... Vsebine, ki jih tako zapišemo pa skrbno šifriramo.
Če mi zna kdo pojasniti kako bodo čez 500 let znali stvari razšifrirati, bo totalno pomirjen :)!

ST-777 ::

wizi je izjavil:

Me prav zanima, kaj si lahko pomagaš s ploščkom, ki zdrži 1M let. Digitalni jezik je sicer iz 1001110100... Vsebine, ki jih tako zapišemo pa skrbno šifriramo. Če mi zna kdo pojasniti kako bodo čez 500 let znali stvari razšifrirati
Dešifracija ni problem. Leta 1977 so poslali v vesolje sondo z zlato ploščo, kjer so podatki. Če jo bodo vesoljci čez nekaj 100.000 let našli, jo bodo lahko poslušali z napravo, ki jo bodo zgradili na podlagi risb na plošči: https://www.google.si/search?q=Intergal...

"A 12-inch gold plated copper disk containing recorded sounds and images representing human cultures and life on Earth, is affixed to the Voyager - a message in a bottle cast into the cosmic sea. In the hope that an extra-terrestrial intelligent life form will use it to initiate contact with Human beings.

Voyager 1 spacecraft is a class A 722-kilogram (1,592 lb) robotic space probe of the outer Solar System and beyond, launched September 5, 1977." https://soundcloud.com/pyrod/pyrod-psyt...

Rudolf ::

Rešitev za ta problem je dokaj trivialna. Kopijo znanstvenega članka moraš objaviti še na kakšnem Facebooku, forumu ekstremne verske/politične ločine, doomsday prepperjev ipd. Potem si lahko gotov, da se bo vsaj ena kopija tvojega članka zagotovo ohranila. ;)

T-h-o-r ::

treba čim prej začet vgrajevat čipe v glavo de

ne vem, zakaj smo v tem toliko zadaj, faak
Why have a civilization anymore
if we no longer are interested in being civilized?

Leslie Chow ::

Tkole je blo pr men (Elsevier);
ko sem sem prosil in zasliševal avtorje člankov kako so prišli do podatkov mi seveda ni noben podal razlage, kaj šele surove podatke. Avtorji so prišli do izračunov preko "čarobnega algoritma" o njem pa niso vedeli povedati ničesar. Ko pa so bili potem ti isti avtorji moji recenzenti...potem pa so na vsak način hoteli dobiti surove podatke in vse algoritme 8-O
Da o tem ne govorimo, da ti kot avtor študije nimaš od tega nič, še celo avtorskim pravicam se odrečeš...in za vse to čakaš pol leta če imaš srečo. Založniki bodo pa to lepo naprej prodali...
Marš pa tele sistem člankov.


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Indijska afera Superprevodnost

Oddelek: Novice / Znanost in tehnologija
85224 (3128) c3p0
»

Sci-hub: znanstveni pirate bay pod žarometi

Oddelek: Novice / Znanost in tehnologija
429155 (4268) Lonsarg
»

Laži v znanosti (strani: 1 2 3 4 )

Oddelek: Znanost in tehnologija
16215293 (9678) phuntaox
»

Večina ekonomskih člankov neponovljiva

Oddelek: Novice / Znanost in tehnologija
2911428 (8120) bbf

Več podobnih tem