» »

Nvidia predstavila grafično arhitekturo Ampere

Nvidia predstavila grafično arhitekturo Ampere

Ampere A100

DGX A100

Slo-Tech - Kot je zadnje čase pri Nvidiji v navadi, uvod v novo generacijo njihovih grafičnih tehnologij predstavljajo rešitve za podatkovne centre. A100, prvi GPU nove arhitekture Ampere, je gromozanski čip z več kot petdesetimi milijardami tranzistorjev in namenjen pretežno pospeševanju strojnega učenja.

Nvidijino tehnološko konferenco GTC v običajni obliki je letos odnesel koronavirus, zato je šef Jen-Hsun Huang tradicionalni nagovor v črni jakni opravil iz domače kalifornijske kuhinje (skrajšan video povzetek). Najbolj impozantna reč, ki jo je pri tem potegnil iz pečice, je superračunalniška rezina DGX 100, v kateri se poti osem novih GPUjev A100, nove arhitekture Ampere. Gre za naslednico družin Volta in Turing - in to obeh hkrati. Medtem ko je Volta poddružina grafičnih čipov za podatkovne centre, Turing pa (pretežno) za domačo uporabo, bo Ampere vsebovala izdelke vseh namembnosti, saj so se snovalci s tehnološkega vidika močno usmerili v univerzalnost. A kot smo lahko sedaj že vajeni, bodo prvi izdelki našli dom v podatkovnih centrih, medtem ko se lahko novih Geforcov nadejamo šele jeseni; šušlja se, da bo Nvidia zanje izrabila izid Cyberpunka 2077. Največ denarcev in vpliva je pač v big dati. Tokrat se je Jensen le na kratko ustavil ob raytracingu in DLSSu druge generacije, kar pomeni, da bodo imeli tudi Geforci RTX 3000 podobne lastnosti kot predhodniki.



A100 je čip že kar strašljivih dimenzij. V siliciju površine 826 kvadratnih milimetrov se skriva kar 54 milijard tranzistorjev, ki so jih tja uspeli stlačiti zavoljo TSMCjeve 7-nanometrske proizvodnje, in trošijo skupaj 400 vatov elektrike. Sestavljajo 6912 jedrc CUDA z natančnostjo FP32 in 432 tenzorskih jeder tretje generacije. Po 5120-bitnem vodilu so povezani s pomnilnikom HBM2, s prepustnostjo 1,6 TB/s. V praksi so pomembnejši podatki tisti za procesne zmogljivosti v posameznih režimih, oziroma znatna razširitev nabora formatov zapisa podatkov. Nvidia namreč z A100 uvaja format TF32 (tensor float), to je 20-bitni zapis z osembitnim eksponentom (kot pri FP32), toda zgolj 10-bitno mantiso, kot pri FP16. Tako lahko na tenzorskih jedrcih predelujejo podatke formata FP32, kar delo glede na prejšnjo generacijo, Voltin V100, močno pospeši - tudi do dvajsetkrat. To številko pri Nvidiji zelo radi navajajo kot pospešek, ki ga prinese Ampere, a jo je seveda potrebno razumeti v okviru opisane rabe tenzorske arhitekture, saj drugače doprinosi v "klasičnih" računskih načinih znašajo veliko bolj standardnih nekaj deset procentov, kot smo tudi sicer vajeni pri prehodih med generacijami.

A100 je obenem veliko bolj primeren za rabo naučenih vzorcev (inference) kot pa V100, ki se je najbolje odrezal pri učenju, medtem ko so rabo prepustili Turingovim Teslam T4. Ampere zna oboje, kar naj bi poenostavilo zasnovo podatkovnih centrov, posredi pa je poleg večjega števila prilagodljivih formatov še več dodatnih tehnologij. Sparsity Acceleration je prijem, pri katerem se zanemari polovico manj pomembnih povezav med vozlišči v nevronski mreži, kar teoretično podvoji hitrost preračunavanja; v Nvidiji trdijo, da je napaka ob tem zanemarljiva. V praksi pa bo bržkone pomembnejša natančnejša virtualizacija ali Multi-Instance GPU (MIG). Z njo je mogoče A100 razparcelirati na do sedem dobro zamejenih področij z namenskim pomnilnikom, kar pomeni, da lahko uvodoma omenjeni DGX A100 obdeluje do 56 različnih projektov hkrati.

DGX A100 poleg osmih grafičnih procesorjev sestavljata še dva AMDjeva CPUja družine Rome, kar pomeni, da je Nvidia Intelu zares dala košarico. Poleg je še terabajt pomnilnika, 15 TB shrambe in šesterica kartic NVLink tretje generacije. Njihova vodila imajo dvakrat hitrejši signal, a so hkrati po pasovni širini prepolovljena, zato je prepustnost po vodilu enaka kot prej. Toda posledično jih je mogoče v kartico zbasati več, kar pomeni prilagodljivejše omrežne topologije. Cena za ta DGX? Sitnica, bi rekel Alan Ford - dvesto tisoč dolarjev. Kljub temu je Huang ponazoril, kako lahko regal s petimi takšnimi rezinami opravi toliko kot desetkrat dražji obstoječi superračunalnik. Nvidia iz njih že sestavlja štiri lastne superračunalnike; vse povezano z vodili Mellanoxa, ki ga je Nvidia kupila lani. A100 je torej že veselo ne le v proizvodnji, temveč tudi prodaji. Predstavitvi praktičnega pomena vseh teh tehničnih govoranc je letos služila prepoznava in sinteza govora, v obliki platforme Jarvis, ki je poganjala govorečo vodno kapljo, ki je Jensenu napovedovala vreme.

Edge bo seveda deležen manjših izvedenk Amperove tehnologije. Industrijski roboti in medicinske naprave bodo dobile inačico EGX A100, vozila pa sistemski čip Orin. Domači zanesenjaki se lahko veselijo kompleta Jetson Xavier NX Developer Kit - toda ta je še vedno na osnovi Volte.

14 komentarjev

mtosev ::

Nic. Relevanten stuff za nas home userje bo september. Bomo pocakali.
Core i9 10900X, ASUS Prime X299 Edition 30, 32GB 4x8 3600Mhz G.skill, CM H500M,
ASUS ROG Strix RTX 2080 Super, Samsung 970 PRO, UltraSharp UP3017, Win 11 Pro
moj oče darko 1960-2016, moj labradorec max 2002-2013

sampo ::

Nekaj ne štekam čist dobro:

Prejšnja generacija je imela 21,1 milijard 12nm tranzistorjev in dosegla 15,7 SP in 7,8 DP TFLOPS ob porabi 300W.
Nova generacija ima zdaj 54,2 milijard 7nm trnazistorjev in dosega 19,56 SP in 9,7 DP TFLOPS ob porabi 400W.

Z 2,57x tranzistorji so dosegli 1,25x SP in 1,24x DP povečanje zmogljivosti in 1.33x porabe.
Meni to izgleda zelo 'diminishing returns'.

A je to hint, da se približujemo robu zmogljivosti, kar se da iztisniti iz GPUja?
A ima kdo kaj vpogleda v kaj točno je tukaj bottleneck?

BT52 ::

Tflop med generacijami ni primerljiv.

globoko grlo ::

Manjši Tflop pa večji AI potencial :)
Gigabyte B460M DS3H | I5 - 10400F | 16GB | 6700XT | P2 m.2 500GB

Aggressor ::

sampo je izjavil:

Nekaj ne štekam čist dobro:

Prejšnja generacija je imela 21,1 milijard 12nm tranzistorjev in dosegla 15,7 SP in 7,8 DP TFLOPS ob porabi 300W.
Nova generacija ima zdaj 54,2 milijard 7nm trnazistorjev in dosega 19,56 SP in 9,7 DP TFLOPS ob porabi 400W.

Z 2,57x tranzistorji so dosegli 1,25x SP in 1,24x DP povečanje zmogljivosti in 1.33x porabe.
Meni to izgleda zelo 'diminishing returns'.

A je to hint, da se približujemo robu zmogljivosti, kar se da iztisniti iz GPUja?
A ima kdo kaj vpogleda v kaj točno je tukaj bottleneck?


Notri imaš sedaj več različnih sklopov tranzistorjev za delo v različnih režimih/formatih. Tako da številke v eni kategoriji ne povedo vsega.
en CRISPR na dan odžene zdravnika stran

FlyingBee ::

Tensorčki so zavzeli prostor in porabo.
P200 MMX, 32mb ram, 2gb HDD, s3 virge 2mb, 14" CRT 640x480
New Sphincter Kvartet:
Roko Spestner, Namaž Zlevčar, Daje Heading, Maraje Spetan

sampo ::

Aggressor je izjavil:

Notri imaš sedaj več različnih sklopov tranzistorjev za delo v različnih režimih/formatih. Tako da številke v eni kategoriji ne povedo vsega.


Večino teh vaših komentarjev je bolj prepričevanje, da 'less is more', realno je pa to vse skupaj en velik marketinški bullshit.

1) Za učenje nevronskih mrež se uporablja SP ali celo DP floate. Vse kar je manj od 32 bitov je neresno zapravljanje časa in kvečjemu uporabno za inferenco (i.e. uporabo že naučenih nevronskih mrež za napovedovanje). Ampak za inferenco ti Tesla naredi čip s 6 milijardami tranzistorjev in 36 TFLOPS perormans.

2) Doslej so GPU čipi (za razliko od mikroprocesorjev) še vedno sledili Moorovemu zakonu in podvajali performanse na vsaki dve leti (približno). Stvar se je začela zaustavljati pri lanski generaciji Nvidij, to kar je letos je pa že čisti polom.

3) Performanse GPUjev se, kolikor mi je znano, še vedno merijo v FLOPSih (razen če kdo tukaj misli, da se po novem merijo v bananah na liter, ampak potem naj to pove in razjasni zakaj tako). In benchmark rezultati algoritmov za strojno učenje so lepo sledili FLOPS specifikacijam. Ne vidim razloga, da bi to spreminjali; tudi ne vidim, da bi Nvidia objavljala kakšne druge specifikacije.

pegasus ::

Flopsi so se začeli megliti s "tera ops of whatever ai ops we like" ali krajše TOPS in ti številki marketingarji in navadni smrtniki čisto enostavno pobrkljajo, čeprav sta fundamentalno različni. Tako da je treba biti zadnje čase hudo previden in trikrat preverit, ko navajaš neko cifro ...
In ko na koncu potegneš črto, je edina stvar, ki te zanima, zmogljivost tvoje super pomembne aplikacije. Ko kupujete hw, merite to in se ne obremenjujte z "max theoretical performance". Ta je aktualna šele ko se ukvarjate z optimizacijo neke kode.

Aggressor ::

sampo je izjavil:

Aggressor je izjavil:

Notri imaš sedaj več različnih sklopov tranzistorjev za delo v različnih režimih/formatih. Tako da številke v eni kategoriji ne povedo vsega.


Večino teh vaših komentarjev je bolj prepričevanje, da 'less is more', realno je pa to vse skupaj en velik marketinški bullshit.

1) Za učenje nevronskih mrež se uporablja SP ali celo DP floate. Vse kar je manj od 32 bitov je neresno zapravljanje časa in kvečjemu uporabno za inferenco (i.e. uporabo že naučenih nevronskih mrež za napovedovanje). Ampak za inferenco ti Tesla naredi čip s 6 milijardami tranzistorjev in 36 TFLOPS perormans.

2) Doslej so GPU čipi (za razliko od mikroprocesorjev) še vedno sledili Moorovemu zakonu in podvajali performanse na vsaki dve leti (približno). Stvar se je začela zaustavljati pri lanski generaciji Nvidij, to kar je letos je pa že čisti polom.

3) Performanse GPUjev se, kolikor mi je znano, še vedno merijo v FLOPSih (razen če kdo tukaj misli, da se po novem merijo v bananah na liter, ampak potem naj to pove in razjasni zakaj tako). In benchmark rezultati algoritmov za strojno učenje so lepo sledili FLOPS specifikacijam. Ne vidim razloga, da bi to spreminjali; tudi ne vidim, da bi Nvidia objavljala kakšne druge specifikacije.


Jaz sem odgovarjal specifično na tvoje vprašanje o razkoraku med številom elementov in performansami. Tu je odgovor poznan, ker so ga povedali snovalci sami: A100 ima več sklopov različnih namenov, ker se je firma s to generacijo usmerila v univerzalnost. Koliko je "more is less" učinkovita strategija in koliko marketinški bullshit, bo pa pokazala praksa. Ampak to je pač smer, ki so jo izbrali.

1. Tole je zelo ozkogledno razumevanje situacije. Floati (na CUDA jedrih) so pač eden od možnih medijev za simulacijo nevronskih mrež; trenutno so najbolj razširjeni, niti slučajno pa ne edini. Tenzorska jedra so v tem smislu ena od (pol)bližnjic oz. optimizacij, ideal so pa itak nevromorfni čipi. Iz tvojega pisanja sklepam, da rabe Nvidijinih čipov od Volte naprej ne poznaš.

2. Zmogljivost CUDA segmenta še vedno sledi Moorovemu zakonu in to je v novici tudi povedano.

3. Glede na to, da o rabi nevronskih mrež očitno nekaj veš, me preseneča, da tako gladko pozabiš, da jih v tem trenutku na GPUjih samo simuliramo, kar ima seveda ogromen overhead. S premikom proti nevromorfnim modelom bo (oziroma že) nastal razkorak med golo procesno močjo GPUjev v klasičnem smislu in performansami v strojem učenju.

Koliko je tehnologija tensor corov zares učinkovita, bo kratkomalo povedal trg. In glede na to, da Nvidijine čipe dobesedno grabijo vsi od Alibabe do Amazona, me boš težko prepričal, da Nvidija z njimi prodaja meglo.
en CRISPR na dan odžene zdravnika stran

Senitel ::

sampo je izjavil:

3) Performanse GPUjev se, kolikor mi je znano, še vedno merijo v FLOPSih (razen če kdo tukaj misli, da se po novem merijo v bananah na liter, ampak potem naj to pove in razjasni zakaj tako). In benchmark rezultati algoritmov za strojno učenje so lepo sledili FLOPS specifikacijam. Ne vidim razloga, da bi to spreminjali; tudi ne vidim, da bi Nvidia objavljala kakšne druge specifikacije.

Če se omejiš zgodovinsko kaj GPU-ji počnejo (Graphics Processing Unit), potem je kar en kup metrik, ki so bistveno bolj pomembne za njihov splošen performance kot ena teoretična FLOPS številka, koliko operacij je shader array sposoben sproducirat.
Če se pogovarjamo o nevronskih mrežah potem ima spet smisel pogledat kakšno metriko, ki je temu namenjena. Torej performance tensor jeder namesto splošno namenskega shader arraya. Tukaj pa tako kot nekoč v grafiki padeš v vode, da ni vse IEEE-754. Performačno se je pa tukaj šlo iz x4 glede na splošno namenski array v Volti in Turingu na x8 + performance boost, če se ti pojavijo ničle v podatkih. Glede na feedback pa je bil tudi "semi fp32 mode" iz Volte in Turinga posodobljen v dost manj semi fp32 (TF32).

zee ::

Čakamo, da nam namontirajo radi ali dva v naslednjih mesecih.:)
zee
Linux: Be Root, Windows: Re Boot
Giant Amazon and Google Compute Cloud in the Sky.

sampo ::

Senitel je izjavil:


Če se omejiš zgodovinsko kaj GPU-ji počnejo (Graphics Processing Unit), potem je kar en kup metrik, ki so bistveno bolj pomembne za njihov splošen performance kot ena teoretična FLOPS številka, koliko operacij je shader array sposoben sproducirat.
Če se pogovarjamo o nevronskih mrežah potem ima spet smisel pogledat kakšno metriko, ki je temu namenjena. Torej performance tensor jeder namesto splošno namenskega shader arraya. Tukaj pa tako kot nekoč v grafiki padeš v vode, da ni vse IEEE-754. Performačno se je pa tukaj šlo iz x4 glede na splošno namenski array v Volti in Turingu na x8 + performance boost, če se ti pojavijo ničle v podatkih. Glede na feedback pa je bil tudi "semi fp32 mode" iz Volte in Turinga posodobljen v dost manj semi fp32 (TF32).


Tukaj sicer ni govora o grafičnih karticah - te kartice tipično nimajo video izhoda, zato razmišljanje o grafičnih performansah nima smisla.

Kar brez grafike potem ostane so še nevronske mreže in scientific computing.

Na področju nevronskih mrež je napredek z novo generacijo očiten, na področju scientific computinga pa skoraj neopazen.
Meni se to zdi škoda. Zdi se mi da človeštvo vsaj toliko potrebuje napredek pri modeliranju termodinamike in zgibanju proteinov (scientific computing), kot ga pri analizi slik z Instagrama (nevronske mreže).

Senitel ::

Oh... It can run Crysis just fine even without a DP connector! >:D Grafiko sem potegnil not zato ker hočem pokazat, da FLOPS-i niso vse. Ampere ni tko nedolžna zadeva, čeprav nima 2x tolk SM-ov kot Volta (ali Turing). A100 ima drastično večji L2 cache glede na V100 (40MB vs 6MB), poleg tega ima ta cache 2x večji bandwidth. Poleg tega je DCC (delta color compression) doživel upgrade v compute, kar lahko še dodatno dvigne bandwidth tako od GPC-jev do L2, kot off chip.
Tensor core-i imajo sedaj tudi full blown IEEE-754 64bit mode in lahko posledično FP64 matrično matematiko (cuBLAS) furajo z isto hitrostjo kot splošno namenski CUDA cori FP32. To ni uporabno samo za AI. ;)

NVIDIA Ampere Architecture In-Depth.

FlyingBee ::

Kaj pa bomo v Geforcih videli glede na Turing?
P200 MMX, 32mb ram, 2gb HDD, s3 virge 2mb, 14" CRT 640x480
New Sphincter Kvartet:
Roko Spestner, Namaž Zlevčar, Daje Heading, Maraje Spetan


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Nvidia predstavila grafično arhitekturo Ampere

Oddelek: Novice / Grafične kartice
1412334 (10832) FlyingBee
»

Po Geforcih RTX Super so prišli še GTXi Super (strani: 1 2 3 )

Oddelek: Novice / Grafične kartice
13518741 (15489) FlyingBee
»

Nvidia prinaša podporo DXR raytracingu na kartice GTX (strani: 1 2 3 )

Oddelek: Novice / Grafične kartice
12224074 (20503) Cange
»

Nvidia Volta (strani: 1 2 3 413 14 15 16 )

Oddelek: Strojna oprema
795113989 (65982) tikitoki

Več podobnih tem