» »

Kaj nam bodo dragi modeli, če imamo poceni?

Kaj nam bodo dragi modeli, če imamo poceni?

Slo-Tech - DeepSeek je razburkal svet z najavo, da so svoj model DeepSeek R1 izurili za vsega šest milijonov dolarjev, a gre še ceneje. Raziskovalci s Stanforda in washingtonske univerze so pripravili model s1, ki je primerljiv z OpenAI o1 in DeepSeek R1, le da so za njegovo pripravo porabili 50 dolarjev, kodo in vhodne podatke trening pa priobčili javnosti.

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi. Druga pomembna podrobnost je način učenja, saj je s1 uporablja distilacijo, torej se je učil na modelu Gemini 2.0 Flash Thinking Experimental. Na podoben način so na Berkeleyju že januarja pripravili model za 450 dolarjev.

Kodo za s1 in vse spremljajoče informacije so objavili na Githubu. To pomeni, da ga lahko uporabi ali nadalje razvija vsakdo. Ključno vprašanje pa je, kaj to pomeni za razvoj novih modelov od začetka. Razvoj s1 je bil tako poceni, kar je nekdo pred njimi razvil Gemini, za kar so porabili milijarde. Če lahko obstoječe modele vsakdo (zlo)rabi za razvoj zelo poceni svojih modelov, se pojavi vprašanje smiselnosti prvobitnega dela. Podjetja, ki se ukvarjajo z umetno inteligenco, nad destilacijo iz svojih modelov razumljivo niso navdušena. Večinoma tovrstne prakse tudi prepovedujejo.

S1 je nastal iz odprtega modela Qwen, ki ga je pripravila Alibaba, nato pa so ga izboljšali z uporabo Gemini 2.0 Flash Thinking Experimental. Za to so potrebovali manj kot pol ure na 16 karticah Nvidia H100, kar stane 50 dolarjev.

3 komentarji

JanBrezov ::

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi.

Ja in? Pač gre za najem.

Pred kratkim gledal en podcast o umetni inteligenci, kjer je bila kritika DeepSeek-a ta, da so le-tega učili na ChatGPT odgovorih in s tem "ukradli" vsebine ChatGPT. A nato je bil podan protiargument, da se je ChatGPT učil na vsebini interneta in s tem efektivno ukradel vsebino celotnega človeštva. A so pri ChatGPT všteli stroške priprave vsebin in digitalizacijo, ki je na internetu? Ali morda vseh slik vseh umetnikov? Verjetno ne.

Karamelo ::

kaj to pomeni da je primerljiv z r1 in o1? da je primerljiv z r1 najboljšim modelom? koliko velik je ta s1? zna odgovarjat v slovenščini in uporablja deep thinking tako kot deepseek r1?

Zimonem ::

Ja je pri treh vprašanjih za katerega so priredili qwen. Najbrž okrog dogodkov na trgu nebeškega pokola. saj je to ključno vprašanje ali je model dober ali slab.