Umetna inteligenca iz 60. let bolj človeška od lanskega GPT-3.5

Matej Huš

2. dec 2023 ob 13:39:22

Silovit razmah velikih jezikovnih modelov v tem letu daje napačen občutek, da so računalniki šele sedaj prvikrat res obvladali naravni človeški jezik. Resnično so čedalje boljši, a že pred sedmimi desetletji se je ELIZA pogovarjala z ljudmi. Enega prvih robotov za pogovore (chatbot) je na MIT-u razvil Joseph Weizenbaum. Najnovejši preizkus, ki sta ga izvedla raziskovalca z Univerze v San Diegu, kaže, da je ELIZA bolj človeška od GPT-3.5. Rokopis študije še ni recenziran.

Cameron Jones in Benjamin Bergen sta modele podvrgla Turingovemu testu. Gre za znameniti preizkus, ki si ga je Alan Turing zamislil leta 1950 v članku The Imitation Game. Turingov test je eden najbolj znanih poizkusov, s katerim lahko ugotavljamo, ali se umetna inteligenca lahko uspešno predstavi kot človek. V testu sodelujeta človek in umetna inteligenca, ki z izpraševalcem komunicirata prek računalnika. Izpraševalec ju lahko sprašuje karkoli, nato pa mora iz odgovorov ugotoviti, ali je na drugi strani človek ali stroj.

V najnovejši študiji sta raziskovalca preizkusila človeka, več izpeljank GPT-4, GPT-3.5 in ELIZO. Rezultati so zelo zanimivi. V poizkusu je sodelovalo 652 ljudi, ki so izvedli 1810 pogovorov, izmed katerih je bilo regularnih 1405. Analiza je pokazala, da so ljudje v približno 62 odstotkih opravili Turingov test, kar je več od vseh sodelujočih računalniških modelov. Sledile so izpeljanke GPT-4, nato ELIZA in na koncu GPT-3.5. Slednji je imel rezultat le 14 odstotkov, kar je najslabše. GPT-3.5 poganja brezplačno verzijo ChatGPT, medtem ko je GPT-4 na voljo le v plačljivi inačici. ELIZA je iz sredine 60. let prejšnjega stoletja.

Da ljudje ne prepoznajo drugih ljudi v vseh primerih, je pričakovani in že obravnavan rezultat. Bolj zanimivo pa je vprašanje, zakaj je ELIZA tako dobra. Eden izmed razlogov, ki jih navajata avtorja študije, je zadržanost v odgovorih. Ti dajejo vtis, da gre za človeka, ki ne želi sodelovati. ELIZA ni tako gostobesedna in uslužna kot moderni veliki jezikovni modeli (GPT), ki smo jih spoznali v zadnjem letu. Ljudje takšne umetne inteligence niso pričakovali, zato so menili, da gre na drugi strani za nekooperativnega človeka in ne umetno inteligenco. Turingov test je namreč ravno tako merilo družbe, pričakovanj in znanja ljudi kakor "človeškosti" umetne inteligence.