Znanstveni podatki izginjajo

Matej Huš

23. dec 2013 ob 10:25:20

Naslednja težava, s katero se soočamo v znanosti (in še marsikod), je trajnost oziroma dolgoživost podatkov. Zanemarimo tistih nekaj škandalov, ko so brezvestni raziskovalci ponarejali rezultate raziskav objavljali neresnične, izmišljene ali prerejene podatke. Tudi povsem legitimni podatki imajo težavo, da počasi izginjajo v digitalna večna lovišča. Kanadski raziskovalci so ta problem pogledali in ugotovili, da je izjemno razširjen in obsežen (znanstveni članek).

Ohranjanje digitalnih podatkov je velik problem na vseh področjih, tako domače hranjenje fotografij kot vzdrževanje arhivov v podjetjih. Po eni strani podatke vsake toliko časa preseneti odpoved strojne opreme, ko lahko pomagajo le varnostne kopije, po drugi strani pa moramo skrbeti za redno presnemavanje na nove nosilce. Kar je do danes obstalo na 5,25-palčnih disketah, se še da rešiti, a se bo treba precej potruditi, kakšne eksotične tračne enote pa mogoče niti ne več. Potem so tu tudi neumna varčevanja, kot je presnemavanje trakov, kar so svoj čas počeli ne le RTV in BBC, ampak tudi NASA.

Težava je, da terabajti znanstvenih podatkov izginjajo hitro. V znanstvenih člankih mnogokrat objavimo le grafe, ki prikazujejo podatke (pa še to ne nujno vseh), medtem ko na surove podatke kar pozabimo. Dolgočasnih tabel v članku res ne bo nihče bral, a tu in tam se najde kdo, ki bi podatke nujno potreboval. Z ustreznimi orodji (recimo Engauge) se da iz grafov potegniti zelo dobre približke, a kaj pa ko bi želeli eksaktne meritve prvotnega avtorja? Jih ta še ima?

Kanadčani so ugotovili, da večinoma ne. Zato so izbrali 516 člankov, ki so bili objavljeni v obdobju od let 1991-2011 in njihove avtorje prosili, naj jim pošljejo surove podatke. Starejši kot je bil članek, manj je bilo možnosti, da so te podatke dobili. Povprečje: dobili so 23 odstotkov podatkov. Po eni strani je z leti upadala možnost, da jih avtor še ima, po drugi strani pa so čedalje teže našli te ljudi, ker se elektronski naslovi in telefonske številke menjajo, ljudje umirajo itd. Facebooka za raziskovalce pred 20 leti seveda še ni bilo, medtem ko danes lahko omrežja, kot sta LinkedIn in še bolj ResearchGate, precej pomagajo pri lociranju znanstvenikov, zlasti bolj nomadskih duš, ki se redno selijo po državah in univerzah.

Pregovorno raztreseni znanstveniki imajo svoje arhive urejene bolj površno, vsi pa tudi niso na tekočem z najnovejšo tehnologijo, da bi ob tem še redno skrbeli za varnostno kopiranje in arhiviranje ter presnemavanje na novejše medije. In po smrti znanstvenikov je sila težko najti človeka, ki bo vedel, kam in kako je predhodnik vse to shranil. Tako večina podatkov izginja.

Porekli boste, da je bistvo tako ali tako zajeto v članku. Res je, a vseeno je lepo imeti vse zbrane podatke na enem mestu. Pa ne zato, da bi lovili znanstvenike na podrobnostih (marsikdaj se kakšna podrobnost ne objavi in kakšen graf pač ne nariše, nariše malo drugače ali kakšna točka izpusti, da so rezultati boljši ali lepši - najbolj razvpiti, vprašanje pa tudi če najbolj krivi, so seveda farmacevti, ki želijo na vsak način na trg prodati novo zdravilo), ampak ker jih včasih nujno potrebujemo. Bodisi za primerjavi bodisi za nove raziskave. Nove tehnologije in orodja dostikrat omogočijo, da iz obstoječih podatkov potegnemo nove informacije in zaključke, ko jih obdelamo še na načine, s katerimi jih predhodno nismo mogli.

Ena izmed rešitev tega problema je, da revije ob objavi zahtevajo priložitev vseh surovih podatkov, četudi teh številk potem v končnem članku ni. Nekatere revije to že počno, bodisi v obliki tako imenovanega Supplement Information bodisi povsem ločeno. S tem smo problem sicer le prestavili v druge roke, a načeloma ga je laže reševati centralizirano na institucionalni ravni, kot pa parcialno. In tudi revije se vendarle selijo in umirajo redkeje kot ljudje. Po drugi strani bi lahko te podatke zbirali tudi financerji, saj je veliko znanosti financirane iz državnih (ali evropske) blagajn. V vsakem primeru je njihova ohranitev v javnem interesu.