Kaj nam bodo dragi modeli, če imamo poceni?
Slo-Tech - DeepSeek je razburkal svet z najavo, da so svoj model DeepSeek R1 izurili za vsega šest milijonov dolarjev, a gre še ceneje. Raziskovalci s Stanforda in washingtonske univerze so pripravili model s1, ki je primerljiv z OpenAI o1 in DeepSeek R1, le da so za njegovo pripravo porabili 50 dolarjev, kodo in vhodne podatke trening pa priobčili javnosti.
Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi. Druga pomembna podrobnost je način učenja, saj je s1 uporablja distilacijo, torej se je učil na modelu Gemini 2.0 Flash Thinking Experimental. Na podoben način so na Berkeleyju že januarja pripravili model za 450 dolarjev.
Kodo za s1 in vse spremljajoče informacije so objavili na Githubu. To pomeni, da ga lahko uporabi ali nadalje razvija vsakdo. Ključno vprašanje pa je, kaj to pomeni za razvoj novih modelov od začetka. Razvoj s1 je bil tako poceni, kar...
Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi. Druga pomembna podrobnost je način učenja, saj je s1 uporablja distilacijo, torej se je učil na modelu Gemini 2.0 Flash Thinking Experimental. Na podoben način so na Berkeleyju že januarja pripravili model za 450 dolarjev.
Kodo za s1 in vse spremljajoče informacije so objavili na Githubu. To pomeni, da ga lahko uporabi ali nadalje razvija vsakdo. Ključno vprašanje pa je, kaj to pomeni za razvoj novih modelov od začetka. Razvoj s1 je bil tako poceni, kar...