Število neobstoječih citatov v biomedicinskih znanstvenih člankih poletelo

Matej Huš

25. maj 2026 ob 22:23:59

Maxim Topaz in sodelavci s Columbie so analizirali 2,5 milijona znanstvenih člankov s področja biomedicinskih ved in ugotovili, da se je v minulih treh letih število referenc, ki se nanašajo na neobstoječe članke, več kot podeseterilo. To sovpada s širokim razmahom orodij umetne inteligence, ki se uporabljajo tudi za urejanje besedila in druge naloge v raziskovanju. Rezultate so objavili v The Lancetu.

Tomaz se je raziskave lotil, ko se je tudi njemu primerila takšna nečednost. Ukvarja se namreč z raziskavami umetne inteligence in besedila popravi tudi z velikimi jezikovnimi modeli. A presenetilo ga je, ko mu je urednik sporočil, da je v enem izmed njegovih rokopisov težava, saj ima neobstoječo referenco. Ker se mu je to zgodilo zaradi nepazljivosti, kar ga seveda ne odvezuje odgovornosti, se je odločil raziskati, koliko literature ima iste težave.

Med 2,5 milijona člankov in 97 milijoni referenc, ki jih indeksira repozitorij PubMed Central, je odkril 4000 neobstoječih referenc. To se dogaja od nekdaj, razlogi pa so mnogoteri. Število pa je krepko naraslo po letu 2024. Leta 2023 je imel lažne reference eden izmed 2.828 člankov, leta 2024 pa že eden izmed 458 člankov. Letos je to razmerje še slabše, saj ima lažne reference skoraj 0,4 odstotka člankov (eden na 277).

V znanosti so reference ključne, saj raziskave temeljijo na predhodnem znanju. V biomedicini se citirajo prejšnje klinične študije, izsledki, primeri, sistematični pregledi. Če se v sistem pritihotapijo lažni viri, je to problem, ki se lahko razširi po znanstveni literaturi. Jezikovni modeli so že povzročili porast lažnih člankov, sedaj pa zastrupljajo tudi legitimne članke. Uredniki in založniki sicer imajo orodja, ki načeloma zaznavajo neobstoječe reference, a niso vsemogočna in se lahko motijo. Ob tem Topaz dodaja, da umetna inteligenca ni a priori škodljiva, a jo je treba pravilno uporabljati - in rezultate preveriti.