Nvidia predstavila naslednico arhitekture Hopper, platformo Blackwell

Jurij Kristan

20. mar 2024 ob 08:23:20

Uvodna predstavitev konference GTC 2024 se je po pričakovanjih vrtela okoli prihodnje Nvidiine arhitekture za superračunalnike, ki nosi ime Blackwell in prispe proti koncu leta.

Letošnja Nvidiina pomladna prireditev GPU Technology Conference (GTC) je prva od začetka epidemije covida-19, ki se v celoti dogaja v živo. Kot se spodobi za eno od največjih podjetij na svetu, se je Jensen Huang za svojo uvodno tiskovko iz tradicionalnega San Jose Convention Centra sprehodil v večjo koncertno dvorano SAP Center, s približno 20.000 sedeži. Po stari navadi je možakar v usnjeni jakni zbranim predočil Nvidiino vizijo razvoja tehnologije in s tem povezanih novih čipov iz zelenega tabora. Govor se je zopet dotikal mnogih različnih področij, od robotike prek avtomobilov do dizajna zdravil, toda če bi bilo treba izluščiti eno misel, oziroma cilj družbe, je Jensen izpostavljal namero, da bi se večina tehnološkega razvoja v prihodnosti odvijala v digitalnih dvojčkih, ki bi seveda tekli v Omniversu, Nvidiinem "operacijskem sistemu" (v bistvu okolju) za digitalne dvojčke.

Ker aktualna eksplozija generativnih modelov strojnega učenja v mnogočem sloni na Nvidiinih čipih, je bilo največ oči uprtih v najavo naslednika aktualne GPGPU arhitekture Hopper. Ta nosi ime Blackwell, po Američanu Davidu Blackwellu, ki je ogromno prispeval k področjem informatike, statistike in teorije iger. Osnovno vodilo pri oblikovanju novega čipa je bilo "vsega več", saj generativni modeli prehajajo v sfero velikosti tisoč milijard parametrov, kar pomeni skokovito povečane zahteve tako po pomnilniku kot procesiranju ter pasovni širini komunikacij med elementi računskih centrov. Blackwell je tako neke sorte podvojeni Hopper (in še malo več), saj je Nvidia to pot prvič uporabila tehnologijo čipletov za svoj GPGPU. Blackwell je zgrajen iz dveh čipletov s po 104 milijardami tranzistorjev, ki ju programje vidi kot en čip. Obenem je proizvodni proces zgolj neznatno izboljšan, kajti uporabljajo TSMC proces 4NP in ne 3N, kar je zanimivo in torej večina pospeškov pride iz naslova same arhitekture. Čip je zato v primerjavi s Hopperjem naravnost gromozanski in po prvih ocenah sodeč tudi požrešen, saj troši okoli 1200 W.

Čip ima pripojenih 192 GB pomnilnika HBM3E s prepustnostjo 8 TB/s - več kot dvakrat več od Hopperja. Zanimivi so trije formati, v katerih bo na začetku na voljo. Osnovni, B200, je najbolj klasičen in vsebuje en čip ter ponuja 4,5 petaflopov procesne moči v načinu FP8 ter 9 Pflopov v FP4. Tako je: Blackwell ima še nižjo stopnico v natančnosti (FP4), ki je namenjena izključno inferenci, torej izvajanju modelov strojnega učenja. S tem se skušajo v podjetju zoperstaviti hitremu množenju konkurenčnih čipov na tem področju, kot so gravitoni. Druga različica čipa, B100, je namenjena strojni združljivosti za nazaj, torej nastanitvi v sistemih HGX. Največjo zmogljivost pa obljublja superčip GB200, ki združuje dva blackwella in en procesni čip Grace. Tu naj bi zmogljivost FP4 znašala kar po 20 Pflopov na čip.

Ker je takšne sorte združevanje gradnikov računskih centrov vse pomembnejša in hitrejša dejavnost, so predstavili tudi novo, peto generacijo vodila NVLink. Prepustnost se je glede na štirico okroglo podvojila, na 1,8 TB/s, kar je bilo spričo podvojene velikosti Blackwella v bistvu nujno. Predstavili so tudi s tem povezane rešitve za komunikacijo v obliki strežniških rezin.