Petina znanstvenih člankov iz genomike oporečnih zaradi Excela

Matej Huš

24. avg 2016 ob 18:02:11

Microsoftov Excel je čudovito orodje, ki ga zaradi njegove enostavnosti in zmogljivosti uporabljamo marsikje, na žalost pa tudi tam, kjer nima kaj iskati. V znanosti je uporaba Excela precej dvorezen meč, ker Excel ni program, ki bi nadomestil baze podatke in programe za njihovo obdelavo, ker ima omejeno natančnost in nenazadnje tudi zato, ker si Excel tipe podatkov včasih razloži po svoje.

Članek v Genome Biology na primer ugotavlja, da ima kar petina vseh znanstvenih člankov s področja genomike napake v podatkih, ki so posledica pretvarjanja tipov podatkov v Excelu. Če namreč nismo previdni in podatkov predhodno ne opremimo z apostrofom ali izrecno nastavimo tip kot besedilo, bo Excel poizkusil podatke pretvoriti v drug tip. Pri poimenovanju genov in klonov to ni najbolj pametno.

Nekateri geni imajo namreč imena, ki jih Excel zameša z datumi. Septin 2 se označuje kot SEPT2, kar je za Excel 2. september, medtem ko je MARCH1 1. marec. Excel datume shranjuje kot cela števila, ki označujejo število dni od začetka epohe. Takšna pretvorba je enosmerna, čeprav je iz datuma načeloma mogoče izluščiti, za kateri gen je šlo. Drugačna je zgodba pri RIKEN-ovih oznakah, kjer se 2310009E13 pretvori v eksponentni zapis 2,31E+13, s čimer je prvotna informacija nepovratno izgubljena.

Najbolj zanimivo je, da ne gre za nov problem. Popolnoma enake ugotovitve so objavili v BMC Bioinformatics že leta 2004, pa se do danes ni veliko spremenilo. Najnovejša analiza 3597 člankov v 18 uglednih revijah (vključno z Nature) je pokazala, da je približno 19,6 odstotka priloženih datotek (supplementary info) okvarjenih zaradi omenjenih pretvorb. Število takih člankov v zadnjih letih raste (res pa raste tudi število vseh člankov), zanimivo pa je še, da ima procentualno največ napak prav zelo opevana Nature.

To seveda ni edini primer napak in nesmislov, ki se objavljajo oziroma dogajajo zaradi težav pri uporabi Excela. Spomnimo se samo na primer Reinhart-Rogoff, ko je napačna formula v Excelu "dokazovala", da se pri državnem dolgu nad 90 odstotki BDP obeti države nenadoma hitro poslabšajo. Finacial Times pa je že lani ugotavljal (za dostop članek poiščite prek Googla), da je v povprečni preglednici 5,2 odstotka napačnih polj in da ima kar 94 odstotkov preglednic vsaj eno napako. Tu so za napake precej strogo šteli vse pomanjkljivosti, a vseeno poanta ostaja.