Na Stanfordu razvijajo protistrup DetectGPT

Matej Huš

29. jan 2023 ob 20:25:23

Pustimo vnemar pomisleke o uporabnostih in nevarnostih velikih jezikovnih modelov (LLM), med katerimi je najbolj znan ChatGPT, a vseeno je marsikdaj koristno vedeti, ali so napisali kakšno besedilo ali ne. Raziskovalci na Stanfordu so zato izdelali orodje DetectGPT, ki počne točno to. Za posamezno besedil oceni, kako verjetno je njegov avtor ChatGPT. Podrobnosti pojasnjujejo v znanstvenem rokopisu, v laični obliki pa na Twitterju. Delujoč primerek še ni na voljo javnosti, bo pa kmalu, so obljubili.

Podobna orodja že obstajajo, a to pot so uporabili zanimiv pristop, ki ne potrebuje posebnega urjenja. Ker imajo namreč dostop do orodja samega, torej do ChatGPT, lahko uporabijo kar to. Za sestavek, katerega avtentičnost želijo ugotoviti, izdelajo več manjših variacij, v katerih spreminjajo posamezne dele. Potem izračunajo log-porazdelitveno funkcijo in preverijo, kje na njej ležijo te modifikacije. Če imajo te nižjo vrednost od prvotnega sestavka, torej je slednji na delu z negativno ukrivljenostjo, je zelo verjetno plod ChatGPT. Ukrivljenost pa je možno dobiti iz Hessove matrike (drugih odvodov, torej). Testi so pokazali, da je tak način iskanja strojnih tekstov zelo zanesljiv.