» »

Kaj nam bodo dragi modeli, če imamo poceni?

Kaj nam bodo dragi modeli, če imamo poceni?

Slo-Tech - DeepSeek je razburkal svet z najavo, da so svoj model DeepSeek R1 izurili za vsega šest milijonov dolarjev, a gre še ceneje. Raziskovalci s Stanforda in washingtonske univerze so pripravili model s1, ki je primerljiv z OpenAI o1 in DeepSeek R1, le da so za njegovo pripravo porabili 50 dolarjev, kodo in vhodne podatke trening pa priobčili javnosti.

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi. Druga pomembna podrobnost je način učenja, saj je s1 uporablja distilacijo, torej se je učil na modelu Gemini 2.0 Flash Thinking Experimental. Na podoben način so na Berkeleyju že januarja pripravili model za 450 dolarjev.

Kodo za s1 in vse spremljajoče informacije so objavili na Githubu. To pomeni, da ga lahko uporabi ali nadalje razvija vsakdo. Ključno vprašanje pa je, kaj to pomeni za razvoj novih modelov od začetka. Razvoj s1 je bil tako poceni, kar je nekdo pred njimi razvil Gemini, za kar so porabili milijarde. Če lahko obstoječe modele vsakdo (zlo)rabi za razvoj zelo poceni svojih modelov, se pojavi vprašanje smiselnosti prvobitnega dela. Podjetja, ki se ukvarjajo z umetno inteligenco, nad destilacijo iz svojih modelov razumljivo niso navdušena. Večinoma tovrstne prakse tudi prepovedujejo.

S1 je nastal iz odprtega modela Qwen, ki ga je pripravila Alibaba, nato pa so ga izboljšali z uporabo Gemini 2.0 Flash Thinking Experimental. Za to so potrebovali manj kot pol ure na 16 karticah Nvidia H100, kar stane 50 dolarjev.

7 komentarjev

JanBrezov ::

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi.

Ja in? Pač gre za najem.

Pred kratkim gledal en podcast o umetni inteligenci, kjer je bila kritika DeepSeek-a ta, da so le-tega učili na ChatGPT odgovorih in s tem "ukradli" vsebine ChatGPT. A nato je bil podan protiargument, da se je ChatGPT učil na vsebini interneta in s tem efektivno ukradel vsebino celotnega človeštva. A so pri ChatGPT všteli stroške priprave vsebin in digitalizacijo, ki je na internetu? Ali morda vseh slik vseh umetnikov? Verjetno ne.

Karamelo ::

kaj to pomeni da je primerljiv z r1 in o1? da je primerljiv z r1 najboljšim modelom? koliko velik je ta s1? zna odgovarjat v slovenščini in uporablja deep thinking tako kot deepseek r1?

Zimonem ::

Ja je pri treh vprašanjih za katerega so priredili qwen. Najbrž okrog dogodkov na trgu nebeškega pokola. saj je to ključno vprašanje ali je model dober ali slab.

111111111111 ::

JanBrezov je izjavil:

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi.

Ja in? Pač gre za najem.

Pred kratkim gledal en podcast o umetni inteligenci, kjer je bila kritika DeepSeek-a ta, da so le-tega učili na ChatGPT odgovorih in s tem "ukradli" vsebine ChatGPT. A nato je bil podan protiargument, da se je ChatGPT učil na vsebini interneta in s tem efektivno ukradel vsebino celotnega človeštva. A so pri ChatGPT všteli stroške priprave vsebin in digitalizacijo, ki je na internetu? Ali morda vseh slik vseh umetnikov? Verjetno ne.

Heh, saj razumeš kako je tvoja logika napačna. No verjetno ne. :D

Da ChatGPT se naučil na RAW PODATKIH, kar je bistvena razlika od "destiliranih" modelov.

Morda bolj na tvojem nivoju: V osnovni šoli so te naučili distilirane matematike, za katero se je pa rabilo desetletja študija in raziskav, da smo kot ljudje prišli do uporabnih stvari. Tako nekako je sinergija s temi modeli.

In kot taki so cenejši, ker ne štartajo iz ground zero.

Edina težava je, da bo sedaj verjetno morala te osnovne drage modele razvijati država iz svojih sredstev, ker podjetjem se ne bo splačalo.
Če prisloniš uho na vroč šporhet, lahko zavohaš kak si fuknjen.

darkotri ::

Saj razumeš kako je tvoja logika napačna?
ChatGPT se je naučil na RAW PODATKIH, ki jih je ukradel na spletu, ki so bili last nekoga tretjega. Torej kdo je slabši? Vsi so enaki.


111111111111 je izjavil:

JanBrezov je izjavil:

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi.

Ja in? Pač gre za najem.

Pred kratkim gledal en podcast o umetni inteligenci, kjer je bila kritika DeepSeek-a ta, da so le-tega učili na ChatGPT odgovorih in s tem "ukradli" vsebine ChatGPT. A nato je bil podan protiargument, da se je ChatGPT učil na vsebini interneta in s tem efektivno ukradel vsebino celotnega človeštva. A so pri ChatGPT všteli stroške priprave vsebin in digitalizacijo, ki je na internetu? Ali morda vseh slik vseh umetnikov? Verjetno ne.

Heh, saj razumeš kako je tvoja logika napačna. No verjetno ne. :D

Da ChatGPT se naučil na RAW PODATKIH, kar je bistvena razlika od "destiliranih" modelov.

Morda bolj na tvojem nivoju: V osnovni šoli so te naučili distilirane matematike, za katero se je pa rabilo desetletja študija in raziskav, da smo kot ljudje prišli do uporabnih stvari. Tako nekako je sinergija s temi modeli.

In kot taki so cenejši, ker ne štartajo iz ground zero.

Edina težava je, da bo sedaj verjetno morala te osnovne drage modele razvijati država iz svojih sredstev, ker podjetjem se ne bo splačalo.
darko

BT52 ::

Pa veste da toel vsi delajo. XD Samo narobe je takrat, ko napačna stran to uporabi. xD smeškoti

Zimonem ::

darkotri je izjavil:

Saj razumeš kako je tvoja logika napačna?
ChatGPT se je naučil na RAW PODATKIH, ki jih je ukradel na spletu, ki so bili last nekoga tretjega. Torej kdo je slabši? Vsi so enaki.


111111111111 je izjavil:

JanBrezov je izjavil:

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi.

Ja in? Pač gre za najem.

Pred kratkim gledal en podcast o umetni inteligenci, kjer je bila kritika DeepSeek-a ta, da so le-tega učili na ChatGPT odgovorih in s tem "ukradli" vsebine ChatGPT. A nato je bil podan protiargument, da se je ChatGPT učil na vsebini interneta in s tem efektivno ukradel vsebino celotnega človeštva. A so pri ChatGPT všteli stroške priprave vsebin in digitalizacijo, ki je na internetu? Ali morda vseh slik vseh umetnikov? Verjetno ne.

Heh, saj razumeš kako je tvoja logika napačna. No verjetno ne. :D

Da ChatGPT se naučil na RAW PODATKIH, kar je bistvena razlika od "destiliranih" modelov.

Morda bolj na tvojem nivoju: V osnovni šoli so te naučili distilirane matematike, za katero se je pa rabilo desetletja študija in raziskav, da smo kot ljudje prišli do uporabnih stvari. Tako nekako je sinergija s temi modeli.

In kot taki so cenejši, ker ne štartajo iz ground zero.

Edina težava je, da bo sedaj verjetno morala te osnovne drage modele razvijati država iz svojih sredstev, ker podjetjem se ne bo splačalo.

Pa saj pošpohtlat interneta ni problem, problem je kaj je res in kaj ni in temu primerno vrednotiti Vire.
Deepseek je naredil ravno to z reinforcmen learning. Vsaj za matematiko so vzeli pa model openmathweb.