Kitajska družba DeepSeek razburkala področje umetne inteligence s poceni jezikovnim modelom R1

Jurij Kristan

27. jan 2025 ob 21:35:30

V približno tednu dni je dotlej malo znano kitajsko podjetje DeepSeek z lansiranjem naprednega velikega jezikovnega modela R1 področje generativnih algoritmov na videz postavilo na glavo: za bistveno nižjo ceno so namreč napravili izdelek, ki se lahko kosa z OpenAI o1.

Prejšnji ponedeljek - ravno na dan Trumpove druge prisege - je malo znano kitajsko zagonsko podjetje DeepSeek predstavilo družino jezikovnih modelov DeepSeek R1. Natančneje, gre za modele z določeno zmožnostjo sklepanja (simulated reasoning - SR), ki v fazi izvajanja postopek odgovarjanja strukturirajo v nekakšno zaporedje argumentiranega iskanja delnih odgovorov, zaradi česar so uporabni predvsem na področju znanosti, matematike in tehnologije. Prvi algoritem takšne sorte so pri OpenAI predstavili lanskega septembra v obliki o1 in torej veljajo za čelo napredka.

Posebnost R1 pa ni zgolj to, da naj bi kitajski startup v zgolj nekaj mesecih dohitel OpenAI, saj naj bi bil R1 po izkazu sila blizu o1, temveč še bolj v stroških, ki naj bi pri tem nastali: v DeepSeeku trdijo, da so za trening potrošili manj kot 6 milijonov dolarjev, oziroma za nekako poldrugi razred velikosti manj kot je navada v OpenAI, Googlu, Meti in drugih ameriških velikanih, kjer nastanki takšnih modelov na oko zahtevajo okoli sto milijonov dolarjev. Za nameček naj bi Kitajci pri treningu uporabljali predvsem zavrte Nvidiine čipe H800, kakršne velikan edinole še lahko izvaža v azijsko velesilo po uvedbi širokopoteznih ameriških sankcij na področju čipov za pospeševanje generativnih algoritmov. Oh, in povrhu tega naj bi šlo še za postranski projekt.

Ta štorija o neuglednem pritepencu, ki je ameriškim velikanom pokazal sredinca in se v eni potezi zavihtel na vrh, je v zadnjih dneh domala uročila komentatorje, strokovnjake in vlagatelje širom sveta. Marc Andreessen je R1 označil za enega najbolj navdušujočih prebojev doslej, medtem ko drugi opozarjajo, da ozadja še ne poznamo in da bi lahko šlo za promocijsko akcijo s strani kitajske partije. Yann LeCun opozarja na odprtokodni vidik, saj je R1 odprtoutežni model pod MITjevo odprto licenco. Pogovorni bot je - kljub DDoS napadom - noro oblegan in aplikacija se je pretekli vikend na App Storu zavihtela na vrh lestvice brezplačnic. Danes so tečaji ameriških tehnoloških velikanov zabeležili znatne padce, Nvidijin za okoli 15 odstotkov.

DeepSeek je nastanjen v kraju Hangzhou, kjer ga je pred dvema letoma ustanovil Liang Wenfeng. Izvor in nameni so deklarirano močno idealistični, kajti zagonsko podjetje je neposredno izšlo iz laboratorija Fire-Flyer, ki je bil raziskovalni oddelek kitajskega investicijskega velikana High-Flyer. To se pravi: tamkajšnji procesorji so najprej trli finančne napovedi, preden se je Wenfeng odločil, da se želi ukvarjati z raziskovanjem umetne inteligence. Pri tem je, inovativno, strokovnjake pobiral pretežno med mladimi študenti na univerzah, ne v drugih velikanih. Tako je očitno dobil kritično maso ljudi, ki so se znali z izzivi spopasti na samosvoje načine. DeepSeek dejansko nosi kopico navdušujočih tehničnih zamisli, kot je denimo tista, da se po potrebi prižiga samo določen del nevronske mreže modela, ne pa vsa naenkrat. Poleg osrednjega modela s 671 milijardami parametrov so izdali še šesterico manjših, z od 1,5 do 70 milijardami parametrov, ki jih je mogoče poganjati lokalno.

Tako gre v resnici za zgodbo o tehnični domišljenosti, ki je potolkla uveljavljene paradigme; predvsem dve. Najprej tisto o neobhodnih orjaških stroških za trening in delovanje velikih jezikovnih modelov, s katero ameriški velikani, od OpenAI do Microsofta, argumentirajo gigantsko porabo elektrike, vode in denarja, oziroma s tem povezane nenehne nove finančne injekcije. Kitajci so pokazali, da je to bolj politika teh podjetij kot pa dejanska tehnična nujnost in od tu tudi današnje majanje delniških trgov. In drugič, kaže na luknjo v pristopu ameriške administracije do izvažanja čipov na Kitajsko, saj so se potrdile slutnje, da bodo sankcije Kitajce preprosto prisilile, da se bodo čim prej prilagodili (pa čeprav ne vemo natančno, na čem so pri DeepSeeku modele dejansko trenirali, saj vemo, da so že leta kopičili tudi močnejše čipe).