»

Llama 3.1 405B je največji odprti jezikovni model doslej

vir: Meta
Meta - Pri Meti so po mesecih napovedi izdali prvi odprtoutežni jezikovni model s prek 400 milijardami parametrov, Llamo 3.1 405B.

Bržkone največji ideološki boj pri razvoju velikih jezikovnih modelov je ta hip tisti med povsem zaprtimi modeli, kamor spada večina od razvpitih igralcev na trgu - GPT, Gemini, Claude - in pa na drugi strani ... na nek način odprtimi, kjer je vodilna Meta z družino modelov Llama. Tako Mark Zuckerberg kot vodja njegovega laboratorija za generativne modele Yann LeCun sta namreč velika zagovornika bolj odprtega razvoja takšnih algoritmov. Zato ni nenavadno, da je ob lansiranju najnovejše družine, Llama 3.1, Zuckerberg doktrino nadrobno pojasnil v spletni objavi.

Po njegovem tudi tu velja dinamika, ki smo jo lahko spremljali v vojni operacijskih sistemov med Windowsi in Linuxom - čeprav so Okna na površju komercialno uspešnejši izdelek, pa je Linux spričo svoje zanesljivosti, prilagodljivosti in svobodnosti našel pot na mnoga področja, od mobilnih naprav do...

1 komentar

Meta izdala Llamo 3

Slo-Tech - Meta je predstavila novo generacijo generativnih modelov umetne inteligence Llama. V tretji inkarnaciji sta ta hip na voljo Llama 3 8B in Llama 3 70B, ki imata prav toliko parametrov: osem in sedemdeset milijard. V primerjavi z drugo generacijo, ki ima sicer prav toliko parametrov, predstavljata korenit skok v zmogljivosti, so dejali v Meti. Učila sta se na dveh gručah s 24.000 grafičnimi procesorji.

Zagotovo vsak avtor hvali svoj model kot najboljši, zato nas zanimajo oprijemljivi številčni podatki. Meta trdi, da sta modela na testih MMLU, ARC, DROP, GPQA, HumanEval, GSM-8K, MATH, AGIEval in BIG-Bench Hard boljša od konkurence, denimo Mistrala 7B in Gemme 7B. To sicer drži, a na nekaterih testih je Llama 3 8B le za odtenek boljša, omenjena konkurenta pa tudi nista več najnovejša. Llama 3 70B premaga tudi Gemini 1.5 Pro, ne pa na primer Claude 3 Opus. Odveč je dodati, da je na lastnem testu, ki si ga je izmislila Meta, Llama 3 prekosila konkurenco.

Llama 3 je naučen na 15...

8 komentarjev

Anthropic lansiral tretjo generacijo modela Claude

Anthropic - Pri Anthropicu so predstavili družino velikih jezikovnih modelov Claude 3, s katero neposredno žugajo Geminiju in GPT-4.

Medtem ko se pod soji luči vrši dvoboj med navezo OpenAI-Microsoft in Googlom, ter Meta v bližini nekaj motovili z lamami, si skuša na področju velikih jezikovnih modelov svoj kos pogače odrezati tudi kopica manjših izzivalcev. Med bolj prepoznavnimi je družba Anthropic, ki so jo pred tremi leti ustanovili odpadniki iz OpenAI, ki so Samu Altmanu po povezavi z Microsoftom očitali prehitro komercializacijo. Sami razvijajo modele družine Claude, katere posebnost je vdelava spiska dodatnih zavor in smernic, po katerih naj bi se strojna pamet ravnala, čemur pravijo "constitutional AI". Zanimiva je tudi njihova dolgoročna strategija, po kateri želijo prispeti do algoritmov, ki bi se znali - vsaj na določenem ožjem področju - učiti sami in bi bili lahko osnova močnim pametnim pomočnikom. To se pravi, podobno kot pri OpenAI, le da še kanec bolj ambiciozno.

Medtem ko...

25 komentarjev

Google lansiral odprt jezikovni model Gemma

vir: Google
Google - Pretekli teden so pri Googlu pokazali Gemmo, svoj prvi veliki jezikovni model z javnimi utežnimi parametri, ki je očitno namenjen predvsem spopadu z Metino družino odprtih modelov LLaMA.

Na področju velikih jezikovnih modelov poteka vrsta ideoloških bitk; poleg tiste med "doomerji", ki menijo, da lahko LLMji pripeljejo do nevarne splošne umetne inteligence, in njihovimi nasprotniki, pa spopada med podjetji in strokovnjaki za etiko, še najmanj tisti med pristaši zaprtih in odprtih modelov. Med prve spadajo trenutno najbolj razvpiti velikani, kot sta OpenAI in Google, ki v svoje programje ne dovolijo kdovekoliko vpogleda. Med drugimi so razvijalci LLMjev, ki o svojih stvaritvah objavijo več podatkov, v prvi vrsti strukturo nevronske mreže in pa "uteži" (weights), najpomembnejšo podmnožico parametrov nekega modela, ki določa, kaj se je mreža naučila iz podatkov. Malce ironično je tu glavni igralec Meta, po zaslugi svojega laboratorija FAIR, kjer razvoj vodi Yann LeCun, in modelov...

12 komentarjev

Stability AI izdal svoj veliki jezikovni model

Slo-Tech - Kakor je Stability mešal štrene OpenAI-ju s svojim modelom za ustvarjanje slik Stable Diffusion, mu bodo tudi pri jezikovnih modelih. Pripravili so odprtkodni jezikovni model StableLM, ki je pod licenco CC BY-SA-4.0 na voljo vsakomur. Koda je dostopna na GitHubu, preizkusimo pa jo lahko na Hugging Face ali Replicate. Verzija za pogovor je takisto že dostopna.

StableLM je naučen na treh in sedmih milijardah parametrov, kar je precej manj od ChatGPT-jevih 175 milijard. Sicer prihajata tudi verziji s 15 in 65 milijardami parametrov, a velikost modela ni vse. StableLM v svoji srži smiselno nadaljuje besedilo, ki ga začne človek z ukazom (prompt), rezultat pa so smiselni odgovori. StableLM se lahko pogovarja kot človek, lahko pa tudi piše kodo. Ta je po prvih preizkusih še malce bolj robata kakor pri ChatGPT, a večja modela bosta bržkone boljša. Še vedno pa je boljši od Facebookovega LLaMA, dasiravno GPT-3.5 ali GPT-4.0 še ne dosega. StableLM se je učil na odprtem korpusu podatkov, ki...

4 komentarji

Meta pokazala svoj jezikovni model

Slo-Tech - ChatGPT je zaslovel, ker je bil dovolj dober in in dostopen sleherniku, a še zdaleč ni edini. Svoj jezikovni model (LLM) je razvila tudi Meta, ki se je pohvalila, da je primerljivo kakovosten, dasiravno desetkrat manjši. Poimenovali so ga LLaMA in prihaja v več inačicah, ki imajo od sedem do 65 milijard parametrov. GPT-3, na katerem temelji ChatGPT, jih ima 175 milijard. LLaMA-13B s trinajst milijardami parametri naj bi bil že boljši od ChatGPT, trdi Meta.

Meta trdi, da je njihov model povsem združljiv z avtorskimi pravicami, saj so pri treningu uporabljali le prosto dostopna besedila. V praksi so to na primer Wikipedia, korpus Common Crawl in C4. Zato je lahko celoten model tudi javno dostopen, če se bo Meta za to odločila. Za zdaj se še ni v celoti, tako da ga enostavno ne moremo preizkusiti, lahko pa to storijo raziskovalci. Oskubljena lama je na voljo na Githubu, raziskovalci pa lahko zaprosijo za dostop do polnega modela.

Znižanje zahtevnosti modela in njegova odprtost...

10 komentarjev