»

Gemma 4 12B je ravno pravšnja za domače računalnike

Slo-Tech - Google je družini jezikovnih modelov Gemma 4 izdal novega člana, ki je ravno dovolj velik in zmogljiv, da še teče na osebnih računalnikih. Gemma 4 12B ima 11,95 milijarde parametrov, ki so dostopni pod permisivno licenco Apache 2.0, torej si lahko model prenesemo in poganjamo lokalno. Zadostuje že povprečen procesor in 16 GB pomnilnika. To je posebej uporabno v primerih, ko podatki nikakor ne smejo zapustiti računalnika, bi jih pa vseeno želeli obdelati z velikim jezikovnim modelom na lokalnem računalniku. Za lokalne gruče grafičnih kartic so seveda na voljo še večji modeli Gemma 4. Model lahko snamemo neposredno s Hugging Facea ali Kaggla.

Gemma 4 12B je večmodalni model, ki neposredno razume besedilo, slike in videoposnetke brez dodatnega procesiranja ali pretvarjanja. Google temu pravi poenotena struktura (Unified Structure). Običajni jezikovni modeli imajo različne enkoderje za pretvarjanje zvoka in videa v ustrezno obliko, ki jo model razume. Gemma 4 12B jih ne potrebuje,...

40 komentarjev

Yann LeCun priznal, da so pri testih Llame 4 goljufali

Slo-Tech - V daljšem intervjuju za The Financial Times je Yann LeCun, ki je novembra lani najavil svoj odhod z mesta direktorja umetne inteligence pri Meti, priznal zavajanje. Ko so lani aprila izdali Llamo 4, so testi kazali precej boljše rezultate od kasnejših dosežkov v resnični uporabi. V primerjavi s konkurenco je bila Llama 4 sorazmerno slabo sprejeta, podjetje pa so obtoževali zavajanja. LeCun ga je priznal.

Dejal je, da so rezultate testov nekoliko ponaredili. Razvojna ekipa je uporabila različne variante modela za različne teste, nato pa vse skupaj predstavila kot rezultate enotnega modela. Direktor Mark Zuckerberg nad tem početjem ni bil navdušen, dodaja. Izgubil je zaupanje v vse, ki so sodelovali pri tem početju, veliko ljudi je tudi zapustilo podjetje.

LeCun, ki je lani napovedal odhod iz Meta, ustanavlja lastno podjetje Advanced Machine Intelligence Labs, ki bo imelo precej povezav tudi z njegovo rodno Francijo. Podjetja ne bo vodil kot direktor, temveč bo izvršni predsednik...

7 komentarjev

OpenAI izdal odprta modela

Slo-Tech - Po dolgem času, vse od že prazgodovinskega GPT-2, je OpenAI spet izdal velika jezikovna modela, ki imata javno dostopno drobovje. Modela gpt-oss-120B in gpt-oss-20B lahko prenesemo in poganjamo tudi na malce zmogljivejšem osebnem računalniku. Večji model zahteva grafično kartico z 80 GB pomnilnika, šibkejši pa 16 GB pomnilnika. To pa so že povsem dosegljive specifikacije.

Modela lahko poganjamo lokalno, lahko pa ju tudi prilagajamo in predelujemo. Izid so napovedali že minuli mesec, a je Sam Altman v zadnjem hipu zahteval dodatna varnostna preverjanja. To je pri odprtih modelih izjemno pomembno, saj jih po splavitvi ni možno ugasniti ali odpoklicati. Ko sta modela v svetu, bosta tam tudi ostala, dobila pa bosta še vse predelave, ki se jih bodo uporabniki lotili.

Modela sta izdana pod licenco Apache 2.0, torej ju je možno integrirati v Hugging Face, Ollamo, llamaa.cpp in vLLM.

19 komentarjev

Kitajska družba DeepSeek razburkala področje umetne inteligence s poceni jezikovnim modelom R1

Slo-Tech - V približno tednu dni je dotlej malo znano kitajsko podjetje DeepSeek z lansiranjem naprednega velikega jezikovnega modela R1 področje generativnih algoritmov na videz postavilo na glavo: za bistveno nižjo ceno so namreč napravili izdelek, ki se lahko kosa z OpenAI o1.

Prejšnji ponedeljek - ravno na dan Trumpove druge prisege - je malo znano kitajsko zagonsko podjetje DeepSeek predstavilo družino jezikovnih modelov DeepSeek R1. Natančneje, gre za modele z določeno zmožnostjo sklepanja (simulated reasoning - SR), ki v fazi izvajanja postopek odgovarjanja strukturirajo v nekakšno zaporedje argumentiranega iskanja delnih odgovorov, zaradi česar so uporabni predvsem na področju znanosti, matematike in tehnologije. Prvi algoritem takšne sorte so pri OpenAI predstavili lanskega septembra v obliki o1 in torej veljajo za čelo napredka.

Posebnost R1 pa ni zgolj to, da naj bi kitajski startup v zgolj nekaj mesecih dohitel OpenAI, saj naj bi bil R1 po izkazu sila blizu o1, temveč še bolj v...

169 komentarjev

Llama 3.1 405B je največji odprti jezikovni model doslej

vir: Meta
Meta - Pri Meti so po mesecih napovedi izdali prvi odprtoutežni jezikovni model s prek 400 milijardami parametrov, Llamo 3.1 405B.

Bržkone največji ideološki boj pri razvoju velikih jezikovnih modelov je ta hip tisti med povsem zaprtimi modeli, kamor spada večina od razvpitih igralcev na trgu - GPT, Gemini, Claude - in pa na drugi strani ... na nek način odprtimi, kjer je vodilna Meta z družino modelov Llama. Tako Mark Zuckerberg kot vodja njegovega laboratorija za generativne modele Yann LeCun sta namreč velika zagovornika bolj odprtega razvoja takšnih algoritmov. Zato ni nenavadno, da je ob lansiranju najnovejše družine, Llama 3.1, Zuckerberg doktrino nadrobno pojasnil v spletni objavi.

Po njegovem tudi tu velja dinamika, ki smo jo lahko spremljali v vojni operacijskih sistemov med Windowsi in Linuxom - čeprav so Okna na površju komercialno uspešnejši izdelek, pa je Linux spričo svoje zanesljivosti, prilagodljivosti in svobodnosti našel pot na mnoga področja, od mobilnih naprav do...

1 komentar

Google lansiral odprt jezikovni model Gemma

vir: Google
Google - Pretekli teden so pri Googlu pokazali Gemmo, svoj prvi veliki jezikovni model z javnimi utežnimi parametri, ki je očitno namenjen predvsem spopadu z Metino družino odprtih modelov LLaMA.

Na področju velikih jezikovnih modelov poteka vrsta ideoloških bitk; poleg tiste med "doomerji", ki menijo, da lahko LLMji pripeljejo do nevarne splošne umetne inteligence, in njihovimi nasprotniki, pa spopada med podjetji in strokovnjaki za etiko, še najmanj tisti med pristaši zaprtih in odprtih modelov. Med prve spadajo trenutno najbolj razvpiti velikani, kot sta OpenAI in Google, ki v svoje programje ne dovolijo kdovekoliko vpogleda. Med drugimi so razvijalci LLMjev, ki o svojih stvaritvah objavijo več podatkov, v prvi vrsti strukturo nevronske mreže in pa "uteži" (weights), najpomembnejšo podmnožico parametrov nekega modela, ki določa, kaj se je mreža naučila iz podatkov. Malce ironično je tu glavni igralec Meta, po zaslugi svojega laboratorija FAIR, kjer razvoj vodi Yann LeCun, in modelov...

12 komentarjev