»

Google predstavil novo Nano Banano Pro

Slo-Tech - Google je izdal novo verzijo svojega modela umetne inteligence, ki je prilagojen za izdelavo, obdelavo in predelavo slik. Nano Banana, ki je izšla avgusta in je temeljila na modelu Gemini 2.5 Flash, je dobila naslednico. Nano Banana Pro je osnovana na novem modelu Gemini 3 Pro (Image), a so zavoljo javne podobe obdržali ime banana. Do nje pridemo z obiskom Geminija, kjer izberemo model Gemini 3 Pro in nato kliknemo Create Image.

Ključna prednost novega modela je večja poslušnost. Medtem ko je bilo prejšnji verziji mestoma težko dopovedati posamezne detajle, še največ težav pa je imela z vstavljanjem teksta v slike. Gemini 3 Pro Image je tu storil velik korak naprej, saj je besedilo pravilno, slike pa obdeluje s precej večjo natančnostjo. Če mu na primer ukažemo, naj zamenja posamezno osebo, to tudi stori, ne da bi popačil preostalo kompozicijo.

Tudi ustvarjanje slik mu gre bolje. Rezultati so precej bolj realistični, a imajo znameniti vodni žig in še kup drugih identifikatorjev,...

2 komentarja

Kaj nam bodo dragi modeli, če imamo poceni?

Slo-Tech - DeepSeek je razburkal svet z najavo, da so svoj model DeepSeek R1 izurili za vsega šest milijonov dolarjev, a gre še ceneje. Raziskovalci s Stanforda in washingtonske univerze so pripravili model s1, ki je primerljiv z OpenAI o1 in DeepSeek R1, le da so za njegovo pripravo porabili 50 dolarjev, kodo in vhodne podatke trening pa priobčili javnosti.

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi. Druga pomembna podrobnost je način učenja, saj je s1 uporablja distilacijo, torej se je učil na modelu Gemini 2.0 Flash Thinking Experimental. Na podoben način so na Berkeleyju že januarja pripravili model za 450 dolarjev.

Kodo za s1 in vse spremljajoče informacije so objavili na Githubu. To pomeni, da ga lahko uporabi ali nadalje razvija vsakdo. Ključno vprašanje pa je, kaj to pomeni za razvoj novih modelov od začetka. Razvoj s1 je bil tako poceni, kar...

21 komentarjev

Apple želi vlagati v OpenAI

Slo-Tech - Po podatkih The Wall Street Journala se Apple resno zanima za vložek v OpenAI, s čimer bi si kupil vstopnico v prvi razred umetne inteligence. OpenAI se namreč pripravlja na nov krog financiranja, ki bo potekal po vrednotenju podjetja na okoli 100 milijard dolarjev. Ta krog financiranja upravlja Thrive Capital, v njem pa bosta izmed največjih sodelovala še Microsoft in Nvidia.

Slednji je bil doslej največji partner in investitor v podjetje, saj ima v OpenAI kar 49-odstotni delež. Leta 2019 je v podjetje vložil 13 milijard dolarjev. Apple pa je junija ob razvoju Apple Intelligence (AI) dejal, da je OpenAI strateški partner. AI bo znala osnovna opravila, denimo pametno iskanje, medtem ko bo zahtevnejše naloge opravljal ChatGPT iz OpenAI. To partnerstvo želi Apple sedaj poglobiti in zakoličiti še z vpisom v lastniško strukturo. Apple se v resnici pogovarja z več ponudniki, saj se zanima tudi za partnerstvo z Googlom (model Gemini), Meto, Anthropicom in Perplexityjem. Zanimivo je, da...

10 komentarjev

Google lansiral odprt jezikovni model Gemma

vir: Google
Google - Pretekli teden so pri Googlu pokazali Gemmo, svoj prvi veliki jezikovni model z javnimi utežnimi parametri, ki je očitno namenjen predvsem spopadu z Metino družino odprtih modelov LLaMA.

Na področju velikih jezikovnih modelov poteka vrsta ideoloških bitk; poleg tiste med "doomerji", ki menijo, da lahko LLMji pripeljejo do nevarne splošne umetne inteligence, in njihovimi nasprotniki, pa spopada med podjetji in strokovnjaki za etiko, še najmanj tisti med pristaši zaprtih in odprtih modelov. Med prve spadajo trenutno najbolj razvpiti velikani, kot sta OpenAI in Google, ki v svoje programje ne dovolijo kdovekoliko vpogleda. Med drugimi so razvijalci LLMjev, ki o svojih stvaritvah objavijo več podatkov, v prvi vrsti strukturo nevronske mreže in pa "uteži" (weights), najpomembnejšo podmnožico parametrov nekega modela, ki določa, kaj se je mreža naučila iz podatkov. Malce ironično je tu glavni igralec Meta, po zaslugi svojega laboratorija FAIR, kjer razvoj vodi Yann LeCun, in modelov...

12 komentarjev

Google Gemini ni tako avtonomen, kot se je hvalil Google

TechCrunch - Google je ta teden predstavil veliki generativni model Gemini, ki tekmuje z GPT-4 in od katerega pričakujejo domala renesanso, ali pa vsaj zajezitev neusmiljenega pohoda konkurence. A po solidnem začetnem vtisu je že drugi vtis precej klavrn, saj najboljši videoposnetek oziroma reklama za Gemini ni pristen. Posnetek, ki je hitro nabral več kot milijon ogledov, je močno zrežiran. Pri tem ne mislimo na opombo, ki jo poda že sam posnetek (da so umetno skrajšali zakasnitve in da so Geminijeve odzive skrajšali), temveč da je Google res pretiraval.

Kako so v resnici pripravili posnetek, je kasneje razkril tudi Google. O izdelkih, ki jih je pripravil Gemini, ne gre dvomiti, pač pa je težava v predstavitvi. Model ni tako hiter, ni tako natančen in predvsem ni tako odziven, kot kaže videoposnetek. Interakcija z njim je drugačna od te, ki jo vidimo. Primer: v videoposnetku modelu kretnjo z dlanjo, pa ta vzklikne, da že ve, kaj počne uporabnik: igra kamen, papir, škarje. V resnici je to...

13 komentarjev

Google lansiral model Gemini, svojega tekmeca GPTjem

vir: Google
Google - Pri Googlu so naznanili nastop multimodalnega velikega generativnega modela Gemini, neposrednega tekmeca GPT-4 in tehnologije, na kateri nameravajo graditi prihodnost svojih storitev.

Vse od lanskoletnega lansiranja ChatGPTja je bilo videti, da je navezi OpenAIja in Microsofta uspelo svojega poglavitnega tekmeca Googla grdo presenetiti. Čeprav so ravno Googlovi laboratoriji zaslužni za pretežni del teoretičnih prebojev v razvoju strojnega učenja, se je velikan zaradi ChatGPTja nenadoma znašel v zaostanku in znotraj vodstva naj bi zavladala panika, ki je botrovala prenekaterim spremembam, od vrnitve Larryja Paga in Sergeya Brina v aktivnejšo svetovalno vlogo pa do združitve oddelkov Brain in DeepMind. Sedaj so v podjetju najavili prvi praktični rezultat reform, multimodalni generativni UI model Gemini. V osnovi gre za naslednika velikega jezikovnega modela PaLM 2, toda Gemini je bil že od začetka načrtovan mnogo bolj širokopotezno. To se najbolj odraža v njegovi multimodalnosti,...

8 komentarjev