» »

Petina znanstvenih člankov iz genomike oporečnih zaradi Excela

Petina znanstvenih člankov iz genomike oporečnih zaradi Excela

Slo-Tech - Microsoftov Excel je čudovito orodje, ki ga zaradi njegove enostavnosti in zmogljivosti uporabljamo marsikje, na žalost pa tudi tam, kjer nima kaj iskati. V znanosti je uporaba Excela precej dvorezen meč, ker Excel ni program, ki bi nadomestil baze podatke in programe za njihovo obdelavo, ker ima omejeno natančnost in nenazadnje tudi zato, ker si Excel tipe podatkov včasih razloži po svoje.

Članek v Genome Biology na primer ugotavlja, da ima kar petina vseh znanstvenih člankov s področja genomike napake v podatkih, ki so posledica pretvarjanja tipov podatkov v Excelu. Če namreč nismo previdni in podatkov predhodno ne opremimo z apostrofom ali izrecno nastavimo tip kot besedilo, bo Excel poizkusil podatke pretvoriti v drug tip. Pri poimenovanju genov in klonov to ni najbolj pametno.

Nekateri geni imajo namreč imena, ki jih Excel zameša z datumi. Septin 2 se označuje kot SEPT2, kar je za Excel 2. september, medtem ko je MARCH1 1. marec. Excel datume shranjuje kot cela števila, ki označujejo število dni od začetka epohe. Takšna pretvorba je enosmerna, čeprav je iz datuma načeloma mogoče izluščiti, za kateri gen je šlo. Drugačna je zgodba pri RIKEN-ovih oznakah, kjer se 2310009E13 pretvori v eksponentni zapis 2,31E+13, s čimer je prvotna informacija nepovratno izgubljena.

Najbolj zanimivo je, da ne gre za nov problem. Popolnoma enake ugotovitve so objavili v BMC Bioinformatics že leta 2004, pa se do danes ni veliko spremenilo. Najnovejša analiza 3597 člankov v 18 uglednih revijah (vključno z Nature) je pokazala, da je približno 19,6 odstotka priloženih datotek (supplementary info) okvarjenih zaradi omenjenih pretvorb. Število takih člankov v zadnjih letih raste (res pa raste tudi število vseh člankov), zanimivo pa je še, da ima procentualno največ napak prav zelo opevana Nature.

To seveda ni edini primer napak in nesmislov, ki se objavljajo oziroma dogajajo zaradi težav pri uporabi Excela. Spomnimo se samo na primer Reinhart-Rogoff, ko je napačna formula v Excelu "dokazovala", da se pri državnem dolgu nad 90 odstotki BDP obeti države nenadoma hitro poslabšajo. Finacial Times pa je že lani ugotavljal (za dostop članek poiščite prek Googla), da je v povprečni preglednici 5,2 odstotka napačnih polj in da ima kar 94 odstotkov preglednic vsaj eno napako. Tu so za napake precej strogo šteli vse pomanjkljivosti, a vseeno poanta ostaja.

48 komentarjev

Rias Gremory ::

Kaj znanstveniki niso deležni nobenega učenja zapisa informacij v elektronski obliki?
Mirno gledamo, kako naš svet propada,
saj za časa našega življenja ne bo popolnoma propadel.

Šmorn ::

Površnost, nič drugega.

McHusch ::

Rias Gremory je izjavil:

Kaj znanstveniki niso deležni nobenega učenja zapisa informacij v elektronski obliki?


Ko bi vedel, česa vse še nis(m)o deležni :-)

49106 ::

Rias Gremory je izjavil:

Kaj znanstveniki niso deležni nobenega učenja zapisa informacij v elektronski obliki?



Ali

Qushaak ::

Spet en članek ko se bodo kaki zagovorniki Open/Libre ofisa naslajali kako beden je MS, čeprav gre pa ravno za uporabnike, ki ne obvladajo orodja. :)

bf4ed ::

Naj pišejo na papir, če ne vejo uporabljat excela.

tikitoki ::

Popravljanje domnenih napak s strani software je vecinoma motece in mogoce bi morali uciti programerje o nesmiselnosti implementacije funkcij, ki jih niso sposobni pravilno izpeljati.

tony1 ::

"Če namreč nismo previdni in podatkov predhodno ne (...) nastavimo tip kot besedilo (...)".

Tole je izjemno moteča default Excelova funkcionalnost. Se jo da generalno izključiti?

Rias Gremory ::

tikitoki je izjavil:

Popravljanje domnenih napak s strani software je vecinoma motece in mogoce bi morali uciti programerje o nesmiselnosti implementacije funkcij, ki jih niso sposobni pravilno izpeljati.

Nekako dvomim, da je glavni namen Excela prepoznavanje imen genov. Kaj pa, če bi se uporabniki naučili uporabljati programsko opremo in svoje delo opravljati na nivoju (vem, nora ideja)?
Mirno gledamo, kako naš svet propada,
saj za časa našega življenja ne bo popolnoma propadel.

Vlayke ::

Nocojšnja tema na Odmevih: če nož uporabljaš napačno, se lahko porežeš.

poweroff ::

Očitno Excel za resno znanstveno delo ni primeren. :))

Res je, problem so tudi uporabniki, ki si ne nastavijo ustrezno vseh stvari. Ampak kvalitetna orodja se prilagajajo uporabniku, in ne obratno.
sudo poweroff

Tomay ::

Ni vedno težava v uporabnikih. Excel ima pri večjih, bolj kompleksnih izračunih včasih finte. Na primer kljub temu, da nastaviš vsebino celice kot tekst, tekstovni filtri ne delujejo. Tudi sklici med datotekami občasno ne delujejo pa še to samo pri nekaterih celicah. V glavnem excel ima svoje meje uporabnosti ali neuporabnosti.
Voodoo 4Ever

mtosev ::

bodo še enkrat vnašali podatke. kein problem
Core i9 10900X, ASUS Prime X299 Edition 30, 32GB 4x8 3600Mhz G.skill, CM H500M,
ASUS ROG Strix RTX 2080 Super, Samsung 970 PRO, UltraSharp UP3017, Win 11 Pro,
Enermax Platimax 1700W | moj oče darko 1960-2016, moj labradorec max 2002-2013

Ahim ::

V znanosti je uporaba Excel ...


... ki bi nadomestil baze podatke ...


Oboje ze v prvem odstavku.

user1618 ::

Adijo pamet. Površnost, nič drugega.
"If we were supposed to talk more than listen
we would have been given two mouths and one ear"
- Mark Twain

BigWhale ::

tikitoki je izjavil:

Popravljanje domnenih napak s strani software je vecinoma motece in mogoce bi morali uciti programerje o nesmiselnosti implementacije funkcij, ki jih niso sposobni pravilno izpeljati.


Razvoj programske opreme pri tako velikih projektih ne poteka tako, kot si ti mogoce predstavljas. 'Nesmiselne funkcije' narekujejo drugi. Programerji jih pa implementirajo, ker so jim to narocili. Ne, ker bi se jim zdelo zabavno imeti se neko novo funkcijo.

user1618 ::

Podatki v raziskavah bi morali biti dodatno opremljeni še s takšno sistemsko napako, ki jo prispeva izbira orodja za analitiko. Ali z drugimi besedami: wrong tool for the job :)
"If we were supposed to talk more than listen
we would have been given two mouths and one ear"
- Mark Twain

joze67 ::

Da pretvarja, kar se zdi datum, v datum, je občasno moteče, v splošnem pa že desetletja koristna funkcija. Mogoče se PhDji s tem lomijo, neumni poslovni uporabniki pa ne.
Pri uvozu podatkov je moč zahtevati, da podatke uvozi kot besedilo.

Kriviti Excel za napake pri uporabi ... no, tele s pretvorbami uporabnik lahko spregleda - ampak potem sledijo navedbe o napačnih formulah in "napačnih poljih" (karkoli napačno polje pač je) in sklep je neizbežen - Excel je kriv, saj je od Microsofta. Drugače pač ne more biti.

Spura ::

Nekateri geni imajo namreč imena, ki jih Excel zameša z datumi. Septin 2 se označuje kot SEPT2, kar je za Excel 2. september, medtem ko je MARCH1 1. marec. Excel datume shranjuje kot cela števila, ki označujejo število dni od začetka epohe. Takšna pretvorba je enosmerna, čeprav je iz datuma načeloma mogoče izluščiti, za kateri gen je šlo. Drugačna je zgodba pri RIKEN-ovih oznakah, kjer se 2310009E13 pretvori v eksponentni zapis 2,31E+13, s čimer je prvotna informacija nepovratno izgubljena.
Kaj???? Weak typing in avtomatski type coercion sta problematicna?!?! Excel, Javascript, PHP, pa ravno to so najboljsi tooli, kjer je "1.0" == 1, what could go wrong?

andrejus ::

Tukaj je slo za specificno napako. "SEP1" ali "MARCH2" tako da ni kriv tukaj excel da je narobe izracunal al kaj podobnega.

Obicajno imam s temi pretvorbami v libre calcu več tezav kot v excelu.

No tukaj bi jih bilo verjetno manj :) ker ni tako napreden ko te excel.

andrejus ::

Ma Excel je primeren za vse :) še igrice spišeš v njem.

Ne vem kako so ga uporabljali, ampak sklepam da so delali neke tabele genov, ne verjamem da so potrebovali nek o (relacijsko) bazo podatkov. čemu?
Večinoma rabiš tabele po katerih iščeš, preračunavaš in izvajaš statistiko na njih.
Za kaj takega pa je excel idealen.

Baja ::

tudi meni gre to na živce. zapiši v polje kar sem natipakl. in vzami kot string dokler ti ne rečem drugače. ne pa neki voodoo. tudi google je leto ali dve nazaj nekaj j**** svoj dreke (sheets) in posledično sem moral ročno popravljati XX dokumentov z AA listi za YY ljudi za ZZ let, ker so se šitovci spomnili da bodo nekatera polja pač obravnavali malo drugače. kar je blo včeraj 1+1=2 je blo po novem -100 peštnajst!?!

excel: did u mean to enter a number?
u: no
excel: are u sure?
u: yes
excel: are u really sure?
u: yes
excel: are u really really sure?
u:yes
excel: OK, casting as number and fixing some other things that doesn't comply with entering this as a number.
u: head explodes, apparently suicide!

HighBane ::

Malo je zaporno je to pri excelu, da je veliko podatkov, ki mu jih daš, datum. Sem pred kratkim hotel vnašati količine, kakor 1-3, 3-5, 2-6 (od do). Seveda je to razumel, kakor datume (1. Marc, 3. Maj, 2. Junij...)

Phantomeye ::

HighBane je izjavil:

Malo je zaporno je to pri excelu, da je veliko podatkov, ki mu jih daš, datum. Sem pred kratkim hotel vnašati količine, kakor 1-3, 3-5, 2-6 (od do). Seveda je to razumel, kakor datume (1. Marc, 3. Maj, 2. Junij...)


heh, kak se šele zakomplicira, če v excel importaš datume, v kakem drugem formatu :D

fireice ::

Eh, to ni se nic. Ljudje delajo Monte Carlo simulacije v Excelu :)

Sc0ut ::

fireice je izjavil:

Eh, to ni se nic. Ljudje delajo Monte Carlo simulacije v Excelu :)


Saj pa z vba gre cist komot.
1231 v3, Z97 A, 16GB ram 1600mhz, 3070 RTX, HX850

poweroff ::

Povsem preprosto je.

Mašina naj uboga mene, ne da se jaz prilagajam mašini. Če sem nekaj vnesel, naj to ostane, ne pa da mašina pametuje po svoje in popravlja.

To seveda ni problem samo Excela, pač pa je splošen trend, da se v raznorazen software tlači umetno """inteligenco""".
sudo poweroff

zaj_tam ::

Ta avtomatski datum feature tudi mene redno vrže s tira. Mogoč je čas za eno peticijo? :)

ProGo ::

"procentualno " odstotkovno.

Sklemen ::

Jest sem enkrat kot mulo delal en mailing za cca 600 naslovov in sem se s sortiranjem igral. Vse kuverte je poštar prinesel nazaj, ker se ima naslovnika, ulica in kraj nista nikjer ujemala.

Od takrat sem na relacijskih bazah podatkov.

SKlemen

joze67 ::

Excela še sedaj ne obvladaš?

BigWhale ::

Al pa tega, da bi preveril na nekaj kuvertah, da je izpis pravilen. :)))

joze67 ::

Saj izpis je bil pravilen - ime, ulica, poštna številka in kraj. Kaj več bi mulo želel?

ales85 ::

Mulo bi lahko naredil nekaj "štih prob" :)

joze67 ::

Če je bil mulo, bi morl (še) nekdo drug misliti na to, preden gre izdelek od hiše.

Ampak bistvo pa je, da gre in novica in debata na temo: "Zabijal sem žebelj in se s kladivom treščil po prstu. Zanič kladivo."

damjanster ::

Naj kdo poskusi dat 100.000+ vrstic v excell, da naredi kak graf.
Glede na to, da v večini fakultet forsirajo ta MS orodja, se sploh ne čudim, da pride na dan tudi tak članek. :(

poweroff ::

Poanta je v tem, da:
a) daš podatke v Excel in se moraš zraven neskončno zafrkavati z uvozom, preverjanjem ali je vse OK, itd.
b) daš podatke v SQL bazo podatkov in vse dela iz prve.

Ampak razumem.... stroški prehoda so v prvem primeru preprosto previsoki, kajne? :))
sudo poweroff

joze67 ::

Dati nekaj 100.000 vrstic v Excel .., kadarkoli. Iz tega narediti graf, to je že večji izziv.

Almost, but not entirely connected to the topic...

@Matthai: itak da vsak, ki mu Excel dela težave, razume relacijske baze. Itak, da vse dela iz prve.

poweroff ::

Če imaš problem, ki zahteva relacijsko bazo in ne razumeš relacijske baze (pač pa raje uporabiš neustrezno orodje) - nisi prava oseba za reševanje problema.
sudo poweroff

joze67 ::

No, gre za biokemike ipd, verjetno. Za reševanje svojih problemov so že pravi.

Sicer pa v ozadju je verjetno relacijska podatkovna baza. Ne morem si predstavljati, da bi nekdo podatke vnašal v par 10k vrstic veliko preglednico, pri tem pa bi mu uspelo spregledati, da mu pomembni ključi manjkajo oz. so spremenjeni. Excel običajno uporabijo na koncu procesa, ko so podatki zbrani, za analizo in poročanje (grafi). In Excel je pravo orodje za to, pa če se na glavo postaviš. Ne edino, ampak daleč od napačne izbire.

Težava nastopi samo pri prenosu podatkov, ki ga je "najlažje" narediti preko datoteke z besedilom

darkolord ::

poweroff je izjavil:

Povsem preprosto je.

Mašina naj uboga mene, ne da se jaz prilagajam mašini. Če sem nekaj vnesel, naj to ostane, ne pa da mašina pametuje po svoje in popravlja.

To seveda ni problem samo Excela, pač pa je splošen trend, da se v raznorazen software tlači umetno """inteligenco""".
Ne, ni tako preprosto. Z lahkoto lastovke se naredi, da je vse "text". Ampak potem pač ne boš mogel s tem računati in bo spet narobe.

Isto je v SQL. Če boš števila tlačil v "varchar", z njimi ne boš mogel računati.

Zgodovina sprememb…

  • spremenilo: darkolord ()

joze67 ::

Poleg tega lahko še vedno izberemo napačno relacijsko bazo, npr Microsoft SQL Server, in smo spet tam.

darkolord ::

Ne provociraj.

Invictus ::

joze67 je izjavil:

Poleg tega lahko še vedno izberemo napačno relacijsko bazo, npr Microsoft SQL Server, in smo spet tam.

Kaj je narobe z njo? Oz. da je slabša od Oracle, DB2?

To, da dela tudi na Linuxu?
"Life is hard; it's even harder when you're stupid."

http://goo.gl/2YuS2x

mirator ::

Excel je zelo hvaležno orodje, ki pa ima tudi svoje pasti. Nekaj jih je bilo že naštetih, bom pa navedel še eno zelo pogosto. Uporabniki si namreč zelo radi tabele spreminjajo v grafe in jih aproksimirajo. Za takšno operacijo pa je primeren samo razstreseni graf, vsi ostali grafi namesto vrednosti ordinate upoštevajo zaporedno številko vrstice.
Poleg tega je vsak izdelek pač potrebno razumsko pregledati in najboljše če ta pregled naredi kdo drug. Če namreč pregleduješ sam, potem ne vidiš kaj dejansko piše ampak bereš tako kot bi moralo biti.

filipk ::

Excel 2013 izgubi vse razveljavitve vseh odprtih dokumentov, če zaprem ali shranim enega. To je za resno delo zelo moteče.

cegu ::

filipk je izjavil:

Excel 2013 izgubi vse razveljavitve vseh odprtih dokumentov, če zaprem ali shranim enega. To je za resno delo zelo moteče.


Mene moti, da razveljavitve niso več vezane le na en dokument, ampak na vse odprte dokumente (istega tipa). Tako CTRL-Z skače med odprtimi excel okni in razveljavlja v vseh. Mogoče je povezava?

filipk ::

Tako je videti.


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Petina znanstvenih člankov iz genomike oporečnih zaradi Excela

Oddelek: Novice / Znanost in tehnologija
489079 (5742) filipk
»

Izšel LibreOffice 5.0.0 (strani: 1 2 3 )

Oddelek: Novice / Pisarniški paketi
10363203 (28968) noraguta
»

Program evidenca

Oddelek: Programska oprema
254128 (3557) Qushaak
»

Napaka v Excelu in površna analiza temelj ekonomske politike varčevanja (strani: 1 2 )

Oddelek: Novice / Znanost in tehnologija
6331372 (25732) enadvatri
»

Izšel LibreOffice 3.6

Oddelek: Novice / Pisarniški paketi
206321 (4388) Icematxyz

Več podobnih tem