Meta izdala Llamo 3

Matej Huš

18. apr 2024 ob 22:50:19

Meta je predstavila novo generacijo generativnih modelov umetne inteligence Llama. V tretji inkarnaciji sta ta hip na voljo Llama 3 8B in Llama 3 70B, ki imata prav toliko parametrov: osem in sedemdeset milijard. V primerjavi z drugo generacijo, ki ima sicer prav toliko parametrov, predstavljata korenit skok v zmogljivosti, so dejali v Meti. Učila sta se na dveh gručah s 24.000 grafičnimi procesorji.

Zagotovo vsak avtor hvali svoj model kot najboljši, zato nas zanimajo oprijemljivi številčni podatki. Meta trdi, da sta modela na testih MMLU, ARC, DROP, GPQA, HumanEval, GSM-8K, MATH, AGIEval in BIG-Bench Hard boljša od konkurence, denimo Mistrala 7B in Gemme 7B. To sicer drži, a na nekaterih testih je Llama 3 8B le za odtenek boljša, omenjena konkurenta pa tudi nista več najnovejša. Llama 3 70B premaga tudi Gemini 1.5 Pro, ne pa na primer Claude 3 Opus. Odveč je dodati, da je na lastnem testu, ki si ga je izmislila Meta, Llama 3 prekosila konkurenco.

Llama 3 je naučen na 15 bilijonih drobcev vhodnih podatkov (tokens), kar je okrog 750 milijard besed oziroma sedemkrat več kot Llama 2. Od tega je bilo pet odstotkov besedišča v tujih jezikih (ne angleščini) in štirikrat več računalniške kode kakor v Llami 2. Tako je Llama 3 še vedno najbolj prilagojena za pisano angleščino, a se znajde tudi v drugih jezikih in pisanju kode. Meta pravi, da je novi model lažje usmerjati, da manjkrat zavrne odgovor na vprašanje, da je bolj natančen in da ve več tako o lahkotnih temah kakor zgodovini in naravoslovju in tehniki.

Še vedno pa poteka trening največjega modela Llama 3 400B, ki bo zmogel vse to in še več, tudi znanje vseh ostalih jezikov.