Raziskava: aktualni veliki jezikovni modeli nimajo pojavnih lastnosti
Matej Huš
2. jan 2024 ob 15:36:49
Po velikanskem uspehu ChatGPT, ki je novembra 2022 v splošno javnost prinesel zavedanje o sposobnostih umetne inteligence, in hitrem razvoju velikih jezikovnih modelov, ki je sledil, si je marsikdo postavil vprašanje, kam to vodi. Ali je razvoj umetne inteligence - ali pa vsaj njegovo hitrost - možno napovedati ali pa gre za nenadejane skoke? Raziskovalci s Stanforda so preverjali predpostavke, da aktualni veliki jezikovni modeli izkazujejo pojavne lastnosti (emergent properties). Ugotovili so, da to ne drži.
Kot povsod je tudi pri merjenju sposobnosti umetne inteligence vsaj enako pomembno, kako merimo. Če so metode in metrike okorne, se lahko zdi, da s povečevanjem modelov dosežemo točko prevoja, kjer se pojavijo pojavne lastnosti. To deluje, kakor da modeli po neki kritični velikosti pridobijo kvalitativno drugačne lastnosti, ki jih v manjši inačici nimajo. A raziskovalci v najnovejši študiji to imenujejo privid. Resnica je dolgočasnejša, do umetne splošne inteligence (AGI) pa še daleč.
Ko so primerjali GPT-3 v štirih različnih variantah, ki se razlikujejo v velikosti, je natančnost pri seštevanju nenadoma poskočila z 0 na 100 odstotkov. A če so uporabili bolj fino merilo, denimo število pravilno napovedanih cifer ali pa preprosto več vprašanj, je bil napredek precej bolj zložen. Podobno so odkrili tudi pri Googlovem modelu LaMDA, ki je pri prevajanju pregovorov ali odgovorih na izbirna vprašanja, nenadoma poskočil. Ko pa so preverili verjetnosti, ki jih je model dal posameznemu odgovoru, je bil napredek spet zvezen. Tudi v tretji analizi, kjer so proučevali računalniški vid, je bil izid podoben.
Eden izmed avtorjev študije Sanmi Koyejo pojasnjuje, da zamisel o pojavnih lastnostih ni nič presenetljivega, saj številni sistemi izkazujejo fazne prehode, kjer se hitro in korenito spremenijo njihove lastnosti. A aktualna študija, čeprav jih ne more dokončno izključiti, ne dokazuje obstoja emergentnega vedenja v trenutno dostopnih modelih. To kaže, da je večina lastnosti modelov predvidljivih, s tem pa tudi njihova prihodnost - vsaj do neke mere.