PLoS hoče javno objavo vseh podatkov iz znanstvenih člankov, a to ni tako preprosto

Matej Huš

9. mar 2014 ob 22:11:34

Ugledna znanstvena revija PLoS je lani decembra napovedala spremembo politike, ki od marca letos zahteva, da avtorji že ob oddaji članka priložijo vse zbrane podatke oziroma navedejo mesto, kjer so ti javnosti dostopni. Sliši se precej enostavno: ko narišete graf, je treba poskrbeti še za javno objavo številk, iz katerih je ta graf nastal. V praksi pa je situacija bistveno bolj zapletena.

Včasih raziskovalci ugotovijo, da bi potrebovali podrobnejše ali surove podatke predhodne raziskave, kot so bili objavljeni v članku. To ni enostavno, o čemer smo pisali lani, saj je veliko zlasti podatkov iz starejših študij izgubljenih, nedostopnih ali kod drugod v digitalnih vicah. Četudi so vsi sodelujoči pošteni in delujejo po najboljših močeh (kar ni vedno res, po navadi pa je), je iz povsem življenjskih razlogov do podatkov težko priti.

V PLoS se pridružujejo mnenju nekaterih drugih revij in ustanov (recimo angleške Royal Society), da je javna dostopnost vseh podatkov, iz katerih je nastal nek članek oziroma ki sestavljajo raziskavo, potrebna za znanstveni napredek, saj omogoča ponovitev eksperimenta, ponovno analizo, reinterpretacijo ali vključitev v metaanalize. Zato so sprejeli spremembo svoje politike. Ta je doslej zahtevala dostopnost podatkov na zahtevo, sedaj pa bo treba že ob objavi povedati, kje jih lahko najdemo. Povsem razumna zahteva, ki pa v praksi prinaša - precej težav.

Teh težav je toliko, da so morali svojo politiko pojasnjevati v dolgem seznamu pogostih vprašanj in odgovorov. Februarja letos so morali še enkrat podrobno razdelati, kaj pričakujejo od avtorjev, včeraj pa vse skupaj še prenoviti. V čem so težave?

Problem ni, da znanstveniki a priori ne bi želeli razkrivati podatkov, ampak da so raziskave silno različne in da se podatkov ne da vedno zreducirati na nekaj Excelovih tabel. Znanost v svoji srži ni nič drugega kot merjenje, interpretacija merjenih količin (v več iteracijah), postavljanje modelov in primerjava napovedi z eksperimenti. Vzemimo najbolj ekstremen primer. Veliki hadronski trkalnik v CERN-u je v vseh letih delovanja ustvaril nepregledno množico podatkov. Njegovi detektorji lahko vsako sekundo ustvarijo 1 PB podatkov in čeprav jih veliko večino zavržejo kot nepomembnih, vsi večji njegovi večji eksperimenti (Alice, ATLAS, CMS, LHCb) letno skupaj shranijo 25 PB podatkov. To je izziv že hraniti, kaj šele napraviti javno dostopno.

Tudi sicer ločnica med surovimi podatki in objavljivmi podatki ni vedno ostra. Vzemimo surove podatke meritve detektorjev. Te je potem treba interpretirati v intenziteto svetlobo, pa potem še enkrat v spektre, ki jih pointegriramo in potem primerjamo z modelnimi napovedmi (ki so lahko kvalitativne ali kvantitativne). Kateri nivo podatkov bi javno objavili, saj vsak vsebuje določeno mero interpretacije in obdelave, hkrati pa so najnižji nivoji nerazumljivi vsem, ki se ne ukvarjajo z istim inštrumentom.

Potem obstajajo tudi podatki, ki se jih ne sme ali ne more objaviti. V prvo skupino spadajo na primer podatki iz kliničnih testov, kjer se seveda ne sme razkriti vseh podatkov o udeležencih. V drugo skupino pa bi lahko uvrstili biokemijske in biološke raziskave, kjer so podatki organizem. Nihče pri zdravi pameti ne bo naokoli pošiljal S. aureus, če prejemnik nima ustrezne infrastrukture in znanja za delo z njim. Tudi razkrivanje podatkov o točni lokaciji kakšnih redkih fosilov ali ogroženih vrst ni zaželeno.

Na koncu pridemo še do ene omejitve. Mnogokrat znanstveniki uporabljajo rezultate svojih predhodnikov, ki jih pobirajo tudi iz člankov. Kadar raziskave vsebujejo te podatke, je seveda nemogoče dobiti surove podatke, razen od prvotnega avtorja.

Vse to jim je jasno tudi pri PLoS-u, zato so pravila nekoliko revidirali, omenjene situacije pa dodali med razumljive izjeme. Pojasnjujejo, da se pravil seveda ne bodo togo držali in da lahko v upravičenih primerih avtorji svoje težave razložijo v elektronskem sporočilu. Njihova politika sedaj zahteva, da se objavi minimalna zbirka podatkov (minimal dataset), ki so potrebni za izpeljavo zaključkov, ki so v članku. Kaj točno je minimalna zbirka in kaj pomeni javna objava, pa je odvisno od znanstvenega področja. Nekatera imajo že uveljavljene zbirke podatkov - recimo proteinske banke PDB, clinicaltrials.gov za klinične preizkuse, GenBank za zaporedja aminokislin itd. Drugod, kjer tega ni, morajo biti avtorji iznajdljivi. Če je podatkov malo, se že sedaj objavijo kar v članku v kakšni tabeli. Če jih je več, večina revija pozna prilogo Podporne informacije (Supporting Information), kamor se lahko odloži večjo količino podatkov. Če pa je vsega skupaj še več, potem jih je treba odložiti v kakšen javni repozitorij, kjer dobijo podatki svojo številko DOI.

Ideja je dobra in bo ob primerni izvedbi pripomogla k boljšemu akademskemu svetu.