» »

Kaj nam bodo dragi modeli, če imamo poceni?

Kaj nam bodo dragi modeli, če imamo poceni?

Slo-Tech - DeepSeek je razburkal svet z najavo, da so svoj model DeepSeek R1 izurili za vsega šest milijonov dolarjev, a gre še ceneje. Raziskovalci s Stanforda in washingtonske univerze so pripravili model s1, ki je primerljiv z OpenAI o1 in DeepSeek R1, le da so za njegovo pripravo porabili 50 dolarjev, kodo in vhodne podatke trening pa priobčili javnosti.

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi. Druga pomembna podrobnost je način učenja, saj je s1 uporablja distilacijo, torej se je učil na modelu Gemini 2.0 Flash Thinking Experimental. Na podoben način so na Berkeleyju že januarja pripravili model za 450 dolarjev.

Kodo za s1 in vse spremljajoče informacije so objavili na Githubu. To pomeni, da ga lahko uporabi ali nadalje razvija vsakdo. Ključno vprašanje pa je, kaj to pomeni za razvoj novih modelov od začetka. Razvoj s1 je bil tako poceni, kar je nekdo pred njimi razvil Gemini, za kar so porabili milijarde. Če lahko obstoječe modele vsakdo (zlo)rabi za razvoj zelo poceni svojih modelov, se pojavi vprašanje smiselnosti prvobitnega dela. Podjetja, ki se ukvarjajo z umetno inteligenco, nad destilacijo iz svojih modelov razumljivo niso navdušena. Večinoma tovrstne prakse tudi prepovedujejo.

S1 je nastal iz odprtega modela Qwen, ki ga je pripravila Alibaba, nato pa so ga izboljšali z uporabo Gemini 2.0 Flash Thinking Experimental. Za to so potrebovali manj kot pol ure na 16 karticah Nvidia H100, kar stane 50 dolarjev.

19 komentarjev

JanBrezov ::

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi.

Ja in? Pač gre za najem.

Pred kratkim gledal en podcast o umetni inteligenci, kjer je bila kritika DeepSeek-a ta, da so le-tega učili na ChatGPT odgovorih in s tem "ukradli" vsebine ChatGPT. A nato je bil podan protiargument, da se je ChatGPT učil na vsebini interneta in s tem efektivno ukradel vsebino celotnega človeštva. A so pri ChatGPT všteli stroške priprave vsebin in digitalizacijo, ki je na internetu? Ali morda vseh slik vseh umetnikov? Verjetno ne.

Karamelo ::

kaj to pomeni da je primerljiv z r1 in o1? da je primerljiv z r1 najboljšim modelom? koliko velik je ta s1? zna odgovarjat v slovenščini in uporablja deep thinking tako kot deepseek r1?

Zimonem ::

Ja je pri treh vprašanjih za katerega so priredili qwen. Najbrž okrog dogodkov na trgu nebeškega pokola. saj je to ključno vprašanje ali je model dober ali slab.

111111111111 ::

JanBrezov je izjavil:

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi.

Ja in? Pač gre za najem.

Pred kratkim gledal en podcast o umetni inteligenci, kjer je bila kritika DeepSeek-a ta, da so le-tega učili na ChatGPT odgovorih in s tem "ukradli" vsebine ChatGPT. A nato je bil podan protiargument, da se je ChatGPT učil na vsebini interneta in s tem efektivno ukradel vsebino celotnega človeštva. A so pri ChatGPT všteli stroške priprave vsebin in digitalizacijo, ki je na internetu? Ali morda vseh slik vseh umetnikov? Verjetno ne.

Heh, saj razumeš kako je tvoja logika napačna. No verjetno ne. :D

Da ChatGPT se naučil na RAW PODATKIH, kar je bistvena razlika od "destiliranih" modelov.

Morda bolj na tvojem nivoju: V osnovni šoli so te naučili distilirane matematike, za katero se je pa rabilo desetletja študija in raziskav, da smo kot ljudje prišli do uporabnih stvari. Tako nekako je sinergija s temi modeli.

In kot taki so cenejši, ker ne štartajo iz ground zero.

Edina težava je, da bo sedaj verjetno morala te osnovne drage modele razvijati država iz svojih sredstev, ker podjetjem se ne bo splačalo.
Če prisloniš uho na vroč šporhet, lahko zavohaš kak si fuknjen.

darkotri ::

Saj razumeš kako je tvoja logika napačna?
ChatGPT se je naučil na RAW PODATKIH, ki jih je ukradel na spletu, ki so bili last nekoga tretjega. Torej kdo je slabši? Vsi so enaki.


111111111111 je izjavil:

JanBrezov je izjavil:

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi.

Ja in? Pač gre za najem.

Pred kratkim gledal en podcast o umetni inteligenci, kjer je bila kritika DeepSeek-a ta, da so le-tega učili na ChatGPT odgovorih in s tem "ukradli" vsebine ChatGPT. A nato je bil podan protiargument, da se je ChatGPT učil na vsebini interneta in s tem efektivno ukradel vsebino celotnega človeštva. A so pri ChatGPT všteli stroške priprave vsebin in digitalizacijo, ki je na internetu? Ali morda vseh slik vseh umetnikov? Verjetno ne.

Heh, saj razumeš kako je tvoja logika napačna. No verjetno ne. :D

Da ChatGPT se naučil na RAW PODATKIH, kar je bistvena razlika od "destiliranih" modelov.

Morda bolj na tvojem nivoju: V osnovni šoli so te naučili distilirane matematike, za katero se je pa rabilo desetletja študija in raziskav, da smo kot ljudje prišli do uporabnih stvari. Tako nekako je sinergija s temi modeli.

In kot taki so cenejši, ker ne štartajo iz ground zero.

Edina težava je, da bo sedaj verjetno morala te osnovne drage modele razvijati država iz svojih sredstev, ker podjetjem se ne bo splačalo.
darko

BT52 ::

Pa veste da toel vsi delajo. XD Samo narobe je takrat, ko napačna stran to uporabi. xD smeškoti

Zimonem ::

darkotri je izjavil:

Saj razumeš kako je tvoja logika napačna?
ChatGPT se je naučil na RAW PODATKIH, ki jih je ukradel na spletu, ki so bili last nekoga tretjega. Torej kdo je slabši? Vsi so enaki.


111111111111 je izjavil:

JanBrezov je izjavil:

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi.

Ja in? Pač gre za najem.

Pred kratkim gledal en podcast o umetni inteligenci, kjer je bila kritika DeepSeek-a ta, da so le-tega učili na ChatGPT odgovorih in s tem "ukradli" vsebine ChatGPT. A nato je bil podan protiargument, da se je ChatGPT učil na vsebini interneta in s tem efektivno ukradel vsebino celotnega človeštva. A so pri ChatGPT všteli stroške priprave vsebin in digitalizacijo, ki je na internetu? Ali morda vseh slik vseh umetnikov? Verjetno ne.

Heh, saj razumeš kako je tvoja logika napačna. No verjetno ne. :D

Da ChatGPT se naučil na RAW PODATKIH, kar je bistvena razlika od "destiliranih" modelov.

Morda bolj na tvojem nivoju: V osnovni šoli so te naučili distilirane matematike, za katero se je pa rabilo desetletja študija in raziskav, da smo kot ljudje prišli do uporabnih stvari. Tako nekako je sinergija s temi modeli.

In kot taki so cenejši, ker ne štartajo iz ground zero.

Edina težava je, da bo sedaj verjetno morala te osnovne drage modele razvijati država iz svojih sredstev, ker podjetjem se ne bo splačalo.

Pa saj pošpohtlat interneta ni problem, problem je kaj je res in kaj ni in temu primerno vrednotiti Vire.
Deepseek je naredil ravno to z reinforcmen learning. Vsaj za matematiko so vzeli pa model openmathweb.

111111111111 ::

darkotri je izjavil:

Saj razumeš kako je tvoja logika napačna?
ChatGPT se je naučil na RAW PODATKIH, ki jih je ukradel na spletu, ki so bili last nekoga tretjega. Torej kdo je slabši? Vsi so enaki.

Ne pogovarjam se o moralnih zadržkih. Osebno menim da je deepseek odlična zadeva za to vsoto denarja. GOvorim o tem, da se primerja hruške in jabolke. ChatGPT, Gemini... Čisto drugačen pristop učenja.

Deepseek popolnoma svoj pristop, ki ima težavo, da se lahko nauči neumnosti večjega modela.

Kdo komu kaj krade je irelevantno. Kitajci so se pač zlagali, da so model natrenirali v 2 mesecih in pozabili omenit, da so to naredili z destilacijo ChatGPT-ja.

A bomo sedaj vlagali naprej v recimo CORE AI al smo zadovoljni s trenutnim izkupičkom?
Če prisloniš uho na vroč šporhet, lahko zavohaš kak si fuknjen.

111111111111 ::

Zimonem je izjavil:


Pa saj pošpohtlat interneta ni problem, problem je kaj je res in kaj ni in temu primerno vrednotiti Vire.
Deepseek je naredil ravno to z reinforcmen learning. Vsaj za matematiko so vzeli pa model openmathweb.

Hmmm... Pobrskaj malo kako deepseek špohtla po internetu in s kakšnimi problemi se srečuje in kako izbira vire in kakšna je točnost odgovorov. :) Rezultati so precej slabi. Ker tako logiko težko pobereš od ChatGPT-ja. Marsikateri model v ozadju lufa OpenAI za boljši reasoning.

Mene je samo strah da se bo sedaj razvoj Core modelov ustavil, češ da je predrag. In bomo dobivali destilacije, destilacij in čedalje večje naumnosti, potem pa te bote spustili v kako orožarno. :D
Če prisloniš uho na vroč šporhet, lahko zavohaš kak si fuknjen.

DamijanD ::

Kako točno pa gre ta distilacija oz. kraja podatkov iz obstoječih modelov? Kaj točno je input za te nove modele?

kanarin ::

Ne štekam logike, da bi moral vsak nov brand ki se ukvarja z AI začeti z nule oz odkrivati toplo vodo. Saj celotna današnja znanost temelji načeloma na temu, da se stalno nadgrajuje obstoječe znanje in tehnologije. Zakaj bi bilo pri AI kaj drugače ? Ali pa je problem samo zato, ker so tega zdaj očitno uspešno lotili tudi... kitajci ?!? Američane realno ne moti toliko neko "vohunjenje" kot spoznavanje (že kar panika), da niso več edini in nad vsemi (na več področjih) - TikTok je tipičen primer - kjer dejansko so zavistni da je tudi nekdo drug uspel plasirati na tržišče (tudi ameriško) tako zelo uspešno in priljubljeno platformo.

JanBrezov ::

111111111111 je izjavil:

Osebno menim da je deepseek odlična zadeva za to vsoto denarja.
Problem je v tem, da ta vsota ni realen podatek. Če so delali destilacijo na ChatGPT, bi po neki logiki morali prišteti ceno izdelave ChatGPT, torej je cena DeepSeek tistih nekaj miljonov plus milijarde za ChatGPT. Enako bi pri ChatGPT morali poleg cene izdelave modela upoštevati še ceno izdelave vsebin, na katerih je ChatGPT naučen, torej ceno izdelave celotne človeške produkcije zadnjih 5.000 let. Tukaj ni moje ali tvoje logike, ampak dva različn vidika na isto stvar: ti vidiš razliko (delta), jaz vidim globalno vsoto (bruto sum). Oba vidika / logiki sta načeloma pravilna.

111111111111 je izjavil:

Kdo komu kaj krade je irelevantno.
To postane zelo relevantno, ko nekdo v tej verigi trdi, da so ga okradli. Po moje se ChatGPT v tem primeru nima kaj za razburjat.

starfotr ::

To je samo dokaz, da so bazične raziskave pomembne in edina prava stavr, če želimo napredek. Taka odkritja potem povzročijo plaz novih odkritji in tudi uporab. Za delček denarja in tudi časa.

111111111111 ::

DamijanD je izjavil:

Kako točno pa gre ta distilacija oz. kraja podatkov iz obstoječih modelov? Kaj točno je input za te nove modele?

Dejansko se AI uči od AI.

kanarin je izjavil:

Ne štekam logike, da bi moral vsak nov brand ki se ukvarja z AI začeti z nule oz odkrivati toplo vodo. Saj celotna današnja znanost temelji načeloma na temu, da se stalno nadgrajuje obstoječe znanje in tehnologije. Zakaj bi bilo pri AI kaj drugače ? Ali pa je problem samo zato, ker so tega zdaj očitno uspešno lotili tudi... kitajci ?!? Američane realno ne moti toliko neko "vohunjenje" kot spoznavanje (že kar panika), da niso več edini in nad vsemi (na več področjih) - TikTok je tipičen primer - kjer dejansko so zavistni da je tudi nekdo drug uspel plasirati na tržišče (tudi ameriško) tako zelo uspešno in priljubljeno platformo.

Ne na novo ukvarjat, ampak ne da poveš, da je tvoj model tako dober ali boljši kot ChatGPT in da si naredil bistveno ceneje in hitreje. Da se ve kaj dobiš.

JanBrezov je izjavil:

To postane zelo relevantno, ko nekdo v tej verigi trdi, da so ga okradli. Po moje se ChatGPT v tem primeru nima kaj za razburjat.

Se strinjam, o relevantnosti, sem govoril iz vidika, da me zanima tehnologija sama, pravne zadeve pa so za debatiranje v drugi temi.

starfotr je izjavil:

To je samo dokaz, da so bazične raziskave pomembne in edina prava stavr, če želimo napredek. Taka odkritja potem povzročijo plaz novih odkritji in tudi uporab. Za delček denarja in tudi časa.

Točno tako, sedaj moramo pa samo videti, kdo bo pripravljen izboljševati modele AI, če so že sedaj dovolj dobri destilati.

Realno pa ne vidim, da bi destilati naredili preskok v AI.
Če prisloniš uho na vroč šporhet, lahko zavohaš kak si fuknjen.

Zgodovina sprememb…

Karamelo ::

kako pa so kitajci naredili distilled model iz openai modela, če pa kakor se spomnim, openai ni dal nobenega svojega modela v prosti dostop..ali je?

Zimonem ::

Mah cvekar je mal premaknjen.
Za matematiko so vzeli
https://github.com/keirp/OpenWebMath
In na podlagi tega ocenjevali ostale spletne vire.
Ne pa chatgpt. Saj nima niti utemeljevanja.

Zgodovina sprememb…

  • spremenilo: Zimonem ()

JanBrezov ::

Karamelo je izjavil:

kako pa so kitajci naredili distilled model iz openai modela, če pa kakor se spomnim, openai ni dal nobenega svojega modela v prosti dostop..ali je?

How DeepSeek ripped up the AI playbook—and why everyone’s going to follow its lead

Let’s start by unpacking how large language models are trained. There are two main stages, known as pretraining and post-training. Pretraining is the stage most people talk about. In this process, billions of documents—huge numbers of websites, books, code repositories, and more—are fed into a neural network over and over again until it learns to generate text that looks like its source material, one word at a time. What you end up with is known as a base model.

Pretraining is where most of the work happens, and it can cost huge amounts of money. But as Andrej Karpathy, a cofounder of OpenAI and former head of AI at Tesla, noted in a talk at Microsoft Build last year: “Base models are not assistants. They just want to complete internet documents.”

Turning a large language model into a useful tool takes a number of extra steps. This is the post-training stage, where the model learns to do specific tasks like answer questions (or answer questions step by step, as with OpenAI’s o3 and DeepSeek’s R1). The way this has been done for the last few years is to take a base model and train it to mimic examples of question-answer pairs provided by armies of human testers. This step is known as supervised fine-tuning.

OpenAI then pioneered yet another step, in which sample answers from the model are scored—again by human testers—and those scores used to train the model to produce future answers more like those that score well and less like those that don’t. This technique, known as reinforcement learning with human feedback (RLHF), is what makes chatbots like ChatGPT so slick. RLHF is now used across the industry.

But those post-training steps take time. What DeepSeek has shown is that you can get the same results without using people at all—at least most of the time. DeepSeek replaces supervised fine-tuning and RLHF with a reinforcement-learning step that is fully automated. Instead of using human feedback to steer its models, the firm uses feedback scores produced by a computer.


Torej eden od zadnjih korakov je testiranje s postavljanjem vprašanj in ocenjevanjem odgovorov, kar pri OpenAI delajo ljudje, pri DeepSeek pa so za to uporabili kar ChatGPT API. OpenAI bi naj imel dokaze, da je DeepSeek to počel preko njihovega API-ja. Splošna javnost je na to posumila, ker je DeepSeek na začetku v svojih dogovorih trdil, da je ChatGPT (ker so pač kopirali odgovore ChatGPT).

Karamelo ::

to si pa nebi mislu da so kar preko API-ja to delali :) no sej to je nekako edino možno, razen dejanske kraje modela

111111111111 ::

Karamelo je izjavil:

kako pa so kitajci naredili distilled model iz openai modela, če pa kakor se spomnim, openai ni dal nobenega svojega modela v prosti dostop..ali je?

Kupili so dostop do ChatGPT API-ja in trenirali končne faze preko tega. Niso gradili iz nule. AI se je pogovarjal z AI. Mogoče tudi več računov, itd...

Zimonem je izjavil:

Mah cvekar je mal premaknjen.
Za matematiko so vzeli
https://github.com/keirp/OpenWebMath
In na podlagi tega ocenjevali ostale spletne vire.
Ne pa chatgpt. Saj nima niti utemeljevanja.


Videa sedajle nimam časa pogledat, bom potem komentiral. Kitajci so pač ubrali bližnjico, pomagali pa so si za CahtGPT API-ji, katerega trening je precej koštal in v infrastrukturi in časovno. Sploh pa ne dvomim, da se da kakšne dele sfrizirat, da dosežejo boljše rezultate na testih.

Karamelo je izjavil:

to si pa nebi mislu da so kar preko API-ja to delali :) no sej to je nekako edino možno, razen dejanske kraje modela

No saj je Jan dobro napisal. :)

Če ne bi bilo ChatGPT-ja tudi deepseek ne bi obstajal.
Če prisloniš uho na vroč šporhet, lahko zavohaš kak si fuknjen.

Zgodovina sprememb…