Nvidia predstavila grafično arhitekturo Ampere

Jurij Kristan

15. maj 2020 ob 15:12:34

Kot je zadnje čase pri Nvidiji v navadi, uvod v novo generacijo njihovih grafičnih tehnologij predstavljajo rešitve za podatkovne centre. A100, prvi GPU nove arhitekture Ampere, je gromozanski čip z več kot petdesetimi milijardami tranzistorjev in namenjen pretežno pospeševanju strojnega učenja.

Nvidijino tehnološko konferenco GTC v običajni obliki je letos odnesel koronavirus, zato je šef Jen-Hsun Huang tradicionalni nagovor v črni jakni opravil iz domače kalifornijske kuhinje (skrajšan video povzetek). Najbolj impozantna reč, ki jo je pri tem potegnil iz pečice, je superračunalniška rezina DGX 100, v kateri se poti osem novih GPUjev A100, nove arhitekture Ampere. Gre za naslednico družin Volta in Turing - in to obeh hkrati. Medtem ko je Volta poddružina grafičnih čipov za podatkovne centre, Turing pa (pretežno) za domačo uporabo, bo Ampere vsebovala izdelke vseh namembnosti, saj so se snovalci s tehnološkega vidika močno usmerili v univerzalnost. A kot smo lahko sedaj že vajeni, bodo prvi izdelki našli dom v podatkovnih centrih, medtem ko se lahko novih Geforcov nadejamo šele jeseni; šušlja se, da bo Nvidia zanje izrabila izid Cyberpunka 2077. Največ denarcev in vpliva je pač v big dati. Tokrat se je Jensen le na kratko ustavil ob raytracingu in DLSSu druge generacije, kar pomeni, da bodo imeli tudi Geforci RTX 3000 podobne lastnosti kot predhodniki.

A100 je čip že kar strašljivih dimenzij. V siliciju površine 826 kvadratnih milimetrov se skriva kar 54 milijard tranzistorjev, ki so jih tja uspeli stlačiti zavoljo TSMCjeve 7-nanometrske proizvodnje, in trošijo skupaj 400 vatov elektrike. Sestavljajo 6912 jedrc CUDA z natančnostjo FP32 in 432 tenzorskih jeder tretje generacije. Po 5120-bitnem vodilu so povezani s pomnilnikom HBM2, s prepustnostjo 1,6 TB/s. V praksi so pomembnejši podatki tisti za procesne zmogljivosti v posameznih režimih, oziroma znatna razširitev nabora formatov zapisa podatkov. Nvidia namreč z A100 uvaja format TF32 (tensor float), to je 20-bitni zapis z osembitnim eksponentom (kot pri FP32), toda zgolj 10-bitno mantiso, kot pri FP16. Tako lahko na tenzorskih jedrcih predelujejo podatke formata FP32, kar delo glede na prejšnjo generacijo, Voltin V100, močno pospeši - tudi do dvajsetkrat. To številko pri Nvidiji zelo radi navajajo kot pospešek, ki ga prinese Ampere, a jo je seveda potrebno razumeti v okviru opisane rabe tenzorske arhitekture, saj drugače doprinosi v "klasičnih" računskih načinih znašajo veliko bolj standardnih nekaj deset procentov, kot smo tudi sicer vajeni pri prehodih med generacijami.

A100 je obenem veliko bolj primeren za rabo naučenih vzorcev (inference) kot pa V100, ki se je najbolje odrezal pri učenju, medtem ko so rabo prepustili Turingovim Teslam T4. Ampere zna oboje, kar naj bi poenostavilo zasnovo podatkovnih centrov, posredi pa je poleg večjega števila prilagodljivih formatov še več dodatnih tehnologij. Sparsity Acceleration je prijem, pri katerem se zanemari polovico manj pomembnih povezav med vozlišči v nevronski mreži, kar teoretično podvoji hitrost preračunavanja; v Nvidiji trdijo, da je napaka ob tem zanemarljiva. V praksi pa bo bržkone pomembnejša natančnejša virtualizacija ali Multi-Instance GPU (MIG). Z njo je mogoče A100 razparcelirati na do sedem dobro zamejenih področij z namenskim pomnilnikom, kar pomeni, da lahko uvodoma omenjeni DGX A100 obdeluje do 56 različnih projektov hkrati.

DGX A100 poleg osmih grafičnih procesorjev sestavljata še dva AMDjeva CPUja družine Rome, kar pomeni, da je Nvidia Intelu zares dala košarico. Poleg je še terabajt pomnilnika, 15 TB shrambe in šesterica kartic NVLink tretje generacije. Njihova vodila imajo dvakrat hitrejši signal, a so hkrati po pasovni širini prepolovljena, zato je prepustnost po vodilu enaka kot prej. Toda posledično jih je mogoče v kartico zbasati več, kar pomeni prilagodljivejše omrežne topologije. Cena za ta DGX? Sitnica, bi rekel Alan Ford - dvesto tisoč dolarjev. Kljub temu je Huang ponazoril, kako lahko regal s petimi takšnimi rezinami opravi toliko kot desetkrat dražji obstoječi superračunalnik. Nvidia iz njih že sestavlja štiri lastne superračunalnike; vse povezano z vodili Mellanoxa, ki ga je Nvidia kupila lani. A100 je torej že veselo ne le v proizvodnji, temveč tudi prodaji. Predstavitvi praktičnega pomena vseh teh tehničnih govoranc je letos služila prepoznava in sinteza govora, v obliki platforme Jarvis, ki je poganjala govorečo vodno kapljo, ki je Jensenu napovedovala vreme.

Edge bo seveda deležen manjših izvedenk Amperove tehnologije. Industrijski roboti in medicinske naprave bodo dobile inačico EGX A100, vozila pa sistemski čip Orin. Domači zanesenjaki se lahko veselijo kompleta Jetson Xavier NX Developer Kit - toda ta je še vedno na osnovi Volte.