Nvdiin direktor: DeepSeek še vedno potrebuje veliko računske moči

Matej Huš

22. feb 2025 ob 13:58:15

Prvikrat po izidu modelov DeepSeek V3 in R1, ki sta pošteno zatresla borze in spremenila pričakovanja, se je o tem oglasil Nvidiin direktor Jensen Huang. Poudaril je, da vlagatelji in s tem trg niso razumeli, kako poteka izdelava, učenje in izboljševanje modelov umetne inteligence, zato so napačno predvidevali, da je DeepSeek resnično toliko cenejši.

Poudaril je, da je R1 dober model. Njegov prihod je za trg umetne inteligence dober in bo pospešil uvedbo umetne inteligence v različne sektorje. Po njegovem mnenju - kot direktor Nvidii bi težko javno govoril kaj drugega - to pomeni, da se bo povpraševanje po zmogljivih čipih povečalo, ne pa zmanjšalo. To ni zelo iz trte izvito, saj zgodovina uči, da pocenitev in poenostavitev tehnologije poveča njeno rabo, s tem pa tudi kumulativna vlaganja.

Ob tem je pojasnil, da so bile glavne DeepSeekove izboljšave v postopku začetnega urjenja (pre-training) modela. To resnično lahko poteka z manj računske moči, kar je dobrodošlo. Javnost pa je večinoma spregledala drugi korak, ki mu sledi (post-training). Ta je nujen, da model pridobi "inteligenco" in začne dajati koherentne odgovore, zlasti na zahtevnejša vprašanja. Tega dela ni možno izvesti brez zmogljive strojne opreme, ker je še vedno zelo potraten, trdi Huang. DeepSeek V3 je torej začetni model, po dodatnem urjenju pa dobimo R1, ki ga je DeepSeek izdelal z interakcijo med dvema modeloma umetne inteligence. A javno so povedali le, kaj so potrebovali za V3. Za R1 so potrebovali precej več računske moči in dražjo strojno opremo.