Llama 3.1 405B je največji odprti jezikovni model doslej

Jurij Kristan

24. jul 2024 ob 22:22:21

Pri Meti so po mesecih napovedi izdali prvi odprtoutežni jezikovni model s prek 400 milijardami parametrov, Llamo 3.1 405B.

Bržkone največji ideološki boj pri razvoju velikih jezikovnih modelov je ta hip tisti med povsem zaprtimi modeli, kamor spada večina od razvpitih igralcev na trgu - GPT, Gemini, Claude - in pa na drugi strani ... na nek način odprtimi, kjer je vodilna Meta z družino modelov Llama. Tako Mark Zuckerberg kot vodja njegovega laboratorija za generativne modele Yann LeCun sta namreč velika zagovornika bolj odprtega razvoja takšnih algoritmov. Zato ni nenavadno, da je ob lansiranju najnovejše družine, Llama 3.1, Zuckerberg doktrino nadrobno pojasnil v spletni objavi.

Po njegovem tudi tu velja dinamika, ki smo jo lahko spremljali v vojni operacijskih sistemov med Windowsi in Linuxom - čeprav so Okna na površju komercialno uspešnejši izdelek, pa je Linux spričo svoje zanesljivosti, prilagodljivosti in svobodnosti našel pot na mnoga področja, od mobilnih naprav do oblaka, kjer danes predstavlja hrbtenico informacijskih tehnologij. Zuckerberg meni, da bodo llame po tem kopitu kmalu lahko presegle GPT, Geminija in druge tekmece. Pri tem za Metin pristop uporablja izraz "odprtokodnost" (open-source), ki pa je glede na sprejete konvencije zavajajoč. Llame namreč nimajo odprte kode, temveč zgolj odprte uteži, ki odražajo izučenost nekega modela; za nameček je tudi licenca, pod katero jih lahko uporabljamo, manj svobodna od odprtokodnih.

Da je Zuckerberg svoj manifest objavil ravno sedaj, ima zasluge najmočnejši član družine Llama 3.1, model 405B, kjer številka pomeni 405 milijard parametrov, torej v grobem velikost njegove nevronske mreže. Gre za največji odprti model te sorte doslej, ki je hkrati razlog, da smo novo različico družine prejeli le nekaj mesecev po lansiranju trojke, ko so 405B še trenirali. V grobem naj bi bila Llama 3.1 405B primerljiva z najzmogljivejšimi modeli tekmecev, torej GPT 4o, Geminijem 1.5 Pro ali Claude 3.5 Sonnetom. Poleg sta prispeli tudi manjši različici, 70B in 8B, namenjeni cenejšim chatbotom ali lokalnemu poganjanju.