vir: Google
Vse od lanskoletnega lansiranja ChatGPTja je bilo videti, da je navezi OpenAIja in Microsofta uspelo svojega poglavitnega tekmeca Googla grdo presenetiti. Čeprav so ravno Googlovi laboratoriji zaslužni za pretežni del teoretičnih prebojev v razvoju strojnega učenja, se je velikan zaradi ChatGPTja nenadoma znašel v zaostanku in znotraj vodstva naj bi zavladala panika, ki je botrovala prenekaterim spremembam, od vrnitve Larryja Paga in Sergeya Brina v aktivnejšo svetovalno vlogo pa do združitve oddelkov Brain in DeepMind. Sedaj so v podjetju najavili prvi praktični rezultat reform, multimodalni generativni UI model Gemini. V osnovi gre za naslednika velikega jezikovnega modela PaLM 2, toda Gemini je bil že od začetka načrtovan mnogo bolj širokopotezno. To se najbolj odraža v njegovi multimodalnosti, torej sposobnosti tolmačenja različnih tipov podatkov, od besedil do slik in zvoka. Demis Hassabis pravi, da mu nameravajo v prihodnosti dodajati nove oblike in čute, kot je razumevanje fizičnih dotikov, kar bi prišlo prav pri nadzoru robotov.
V tem trenutku je na voljo zgolj tekstovna različica Gemini Pro, in sicer kot nadgradnja funkcij pogovornega bota Barda, ki naj bi s tem postal zaznavno sposobnejši in zanesljivejši. V Googlu še posebej izpostavljajo zmogljivosti pri programiranju, ki so rezultat novega generativnega sistema AlphaCode 2. Razvijalci se bodo lahko z njim pričeli igrati 13. decembra na platformah Google Generative AI Studio in Vertex AI. V prihodnjem prispeta še dve različici. Največji model Gemini Ultra naj bi enkrat v naslednjem letu ponudil polno multimodalnost in bo osredotočen na storitve podatkovnih centrov; na drugem koncu bo najmanjša verzija Gemini Nano namenjena lokalnemu poganjanju, tudi na telefonih - že kmalu naj bi njegove funkcije prispele na telefone Pixel 8 Pro. Sčasoma naj bi Gemini pristal v drobovju vseh Googlovih spletnih storitev. Doprinosi ne bodo zgolj v zmogljivostih, temveč tudi varčnosti, saj je bil Gemini od začetka snovan z mislijo na Googlove čipe TPU pete generacije, pri čemer so ob robu najave modela naznanili še prihod različice čipa TPU v5p.
Podjetje v oglasnih pamfletih ponosno navaja, da Gemini v 30 od 32 širše uporabljanih programov za merjenje učinkovitosti generativnih modelov poseka GPT-4 Turbo, toda resnici na ljubo so razlike majhne in je vprašljivo, koliko jih bo navaden uporabnik sploh opazil. Realen izkaz Geminija bo lahko dala šele dolgotrajnejša raba v divjini. Bistveno prednost modela, multimodalnost, bomo z Ultro lahko preizkusili šele prihodnje leto, saj skušajo biti v Googlu pri lansiranju novosti še vedno previdnejši kot v OpenAIju, kjer je hitro pošiljanje novosti v javnost nenazadnje doprineslo k nedavni aferi z (začasnim) odhodom direktorja Sama Altmana.