Anthropic lansiral tretjo generacijo modela Claude

Jurij Kristan

5. mar 2024 ob 22:03:03

Pri Anthropicu so predstavili družino velikih jezikovnih modelov Claude 3, s katero neposredno žugajo Geminiju in GPT-4.

Medtem ko se pod soji luči vrši dvoboj med navezo OpenAI-Microsoft in Googlom, ter Meta v bližini nekaj motovili z lamami, si skuša na področju velikih jezikovnih modelov svoj kos pogače odrezati tudi kopica manjših izzivalcev. Med bolj prepoznavnimi je družba Anthropic, ki so jo pred tremi leti ustanovili odpadniki iz OpenAI, ki so Samu Altmanu po povezavi z Microsoftom očitali prehitro komercializacijo. Sami razvijajo modele družine Claude, katere posebnost je vdelava spiska dodatnih zavor in smernic, po katerih naj bi se strojna pamet ravnala, čemur pravijo "constitutional AI". Zanimiva je tudi njihova dolgoročna strategija, po kateri želijo prispeti do algoritmov, ki bi se znali - vsaj na določenem ožjem področju - učiti sami in bi bili lahko osnova močnim pametnim pomočnikom. To se pravi, podobno kot pri OpenAI, le da še kanec bolj ambiciozno.

Medtem ko sta prvi dve generaciji modela Claude prednjačili predvsem po velikosti kontekstualnega okna (ki v grobem določa velikost vhodnih podatkov in "spomin" modela), medtem ko v surovih zmogljivostih nista dosegali GPTjev, so s tretjo po lastnih trditvah naposled prišli vštric s konkurenco. Najava je polna razpredelnic z rezultati sintetičnih testov, po katerih se Claude 3 neposredno meri z GPT-4 in Geminijem, kar pa je zaenkrat treba jemati z zrnom soli, saj bo stvarne zmogljivosti pokazala šele javna raba. Skozi vrata sta za zainteresirane opazovalce zanimiva predvsem dva detajla. Claude 3 je prvi Anthropicov multimodalni model, torej takšen, ki razume različne tipe podatkov, v tem primeru slike in grafikone. Ta hip zmore podobe zgolj prebirati, ne pa z njimi tudi odgovarjati, torej ne gre za slikovni generativni model. In drugič, v tehničnem poročilu stoji zanimiv navedek, da so se pri treningu precej zanašali tudi na sintetične, torej umetno ustvarjene podatke.

Družina Claude 3 obsega (po velikosti od najmanjšega) modele Haiku, Sonnet in Opus. Sonnet je prosto na voljo v Anthropicovem chatbotu, Opus pa je profesionalna, plačljiva različica, kjer lahko izbranci dostopajo do konteksta velikosti milijona zlogov (tokens). Haiku prispe nekaj pozneje.