OpenAI je moral umakniti novi GPT-4o, ker je bil preveč ustrežljiv

Matej Huš

4. maj 2025 ob 14:13:34

OpenAI je bil prisiljen odstraniti zadnjo posodobitev modela ChatGPT, ker je bil zaradi svoje ustrežljivosti povsem neuporaben. Posodobitev modela GPT-4o, ki so jo razkrili 25. aprila, se je z uporabniki strinjala tudi o najbizarnejših zamislih. Sedaj je OpenAI pojasnil, kaj je šlo narobe in kako se bodo v prihodnosti podobnim napakam izognili.

Neželeno lastnost modela so označili s terminom sycophancy (iz grškega sykophántēs), kar bi lahko prevedli kot prilizovanje. Model je bil naučen, da se strinja z uporabnikom in potrjuje njegove zamisli in tudi čustveno stanje. To pa ima lahko tudi škodljive posledice, zlasti kadar podkrepljuje tvegano vedenje. Posodobitev so zato tri dni pozneje odstranili.

To je bila peta posodobitev GPT-4o od njegove prve inkarnacije lanskega maja. Vsaka posodobitev nastane z dodatnim prilagajanjem po osnovnem učenju (post-training), prav tako pogosto preizkušajo manjše spremembe v učenju. Začnejo z natreniranim osnovnim modelom, ki ga potem izpopolnijo s široko paleto odzivov, ki jih napišejo ljudje v nadzorovanem učenju. Nato uporabljajo spodbujevalno učenje (reinforcement learning), kjer ocenjujejo odzive modela. Na koncu se preverijo še zmogljivost, varnost, natančnost modela. Čeprav so nekateri preizkuševalci opozorili, da je "osebnost" novega modela nekoliko nenavadna, prilizovanja niso odkrili, zato je bil na koncu model vseeno objavljen. To je bila napaka, je priznal OpenAI.

ChatGPT uporabniki sprašujejo tudi zelo osebne stvari in ga prosijo na svete v situacijah, za katere OpenAI ni predvidel uporabe. Preveč ustrežljivi modeli lahko okrepijo zakoreninjena prepričanja in predsodke, tudi kadar to ni upravičeno.