Forum » Znanost in tehnologija » ISC '23
ISC '23
pegasus ::
Here we go again. Vidim, da isc yt kanal že miga:
Do eventa je sicer še dobra dva tedna ... za pokušino si oglejte kako predavanje s svežega easybuild user group meetinga: https://www.youtube.com/@EasyBuilders/v...
Do eventa je sicer še dobra dva tedna ... za pokušino si oglejte kako predavanje s svežega easybuild user group meetinga: https://www.youtube.com/@EasyBuilders/v...
pegasus ::
Tole sicer ni ISC, je pa na temo. Ian je par tednov nazaj na Easybuild user meetingu naredil en pregled aktualnega silicija:
pegasus ::
Če vam je dolgčas, preštudirajte materiale na https://www.vi-hps.org/tools/tools.html ... poznavanje in obvladanje teh orodij je v pravi industriji vredno miljone.
pegasus ::
Jack Dongarra na mixed precision delavnici omenja, da se Aurora šele sestavlja in da bo mogoče novembra sposobna ponuditi kako številko za top500 listo. Tako bo lista jutri pretežno brez večjih sprememb.
pegasus ::
Bottom line Jackove prezentacije: "Can we get by with lower precision? It depends." (on the problem) ;)
pegasus ::
Uni Tenesee razvija zanimive numerične knjižnice, npr. Ginkgo, kjer tipajo mixed precision pri del z matrikami. Preseneča me, da se še vedno ukvarjajo z natančnostjo rezultatov, porabe energije pa še niti merijo ne pri fp64->fp32->fp16 eksperimentih. Se vidi, kje so prioritete...
Razglašenost modernega hardvera jih tudi dovolj frustrura, da raziskujejo možne implementacije kompresije podatkov med cpujem in ramom. Najbolj primitivna varjanta je ravno ožanje floating point zapisa, a ugotavljajo, da bi bile bolj inteligentne opcije bolj ugodne. Današnji proci imajo enostavno preveč floating point zmogljivosti v primerjavi z memory bandwidthom ...
Razglašenost modernega hardvera jih tudi dovolj frustrura, da raziskujejo možne implementacije kompresije podatkov med cpujem in ramom. Najbolj primitivna varjanta je ravno ožanje floating point zapisa, a ugotavljajo, da bi bile bolj inteligentne opcije bolj ugodne. Današnji proci imajo enostavno preveč floating point zmogljivosti v primerjavi z memory bandwidthom ...
Zgodovina sprememb…
- spremenil: pegasus ()
pegasus ::
Bivši HPL-AI se sedaj imenuje HPL-MxP in se pozicionira kot the benchmark za scientific ai. Da vidimo, če se bo obdržal tako dolgo, kot HPL, ki sega nazaj v 1977 ...
Zimonem ::
Uni Tenesee razvija zanimive numerične knjižnice, npr. Ginkgo, kjer tipajo mixed precision pri del z matrikami. Preseneča me, da se še vedno ukvarjajo z natančnostjo rezultatov, porabe energije pa še niti merijo ne pri fp64->fp32->fp16 eksperimentih. Se vidi, kje so prioritete...
Razglašenost modernega hardvera jih tudi dovolj frustrura, da raziskujejo možne implementacije kompresije podatkov med cpujem in ramom. Najbolj primitivna varjanta je ravno ožanje floating point zapisa, a ugotavljajo, da bi bile bolj inteligentne opcije bolj ugodne. Današnji proci imajo enostavno preveč floating point zmogljivosti v primerjavi z memory bandwidthom ...
Sej zato probajo in memory computing.samo cel ekosistem naredit je jeba
pegasus ::
Japonski Riken je podpisal zettascale deal z Intlom: https://www.tomshardware.com/news/road-...
Ni še jasno, kaj to pomeni za Fujitsu in japonsko domačo industrijo ...
Ni še jasno, kaj to pomeni za Fujitsu in japonsko domačo industrijo ...
pegasus ::
Danes sem dan začel z dvema privatnima pogostitvama, 2x zajtrk, 2x kosilo :D
Danes je razbijanje ene piksne na več manjših trivialno opravilo z virtualizacijo ali kontejnerji, sestavljanje več piksen v en koherenten kos hardvera pa je precej bolj tricky business. V preteklosti smo imeli npr. ScaleMP na infinibandu in Numascale na hypertransportu in QPI, danes pa GigaIO štrika piksne skupaj prek PCIe. Imajo zanimivo FabriX rešitev, ki potengne PCIe preko retimer kartic ven iz piksne, PCIe kable, switche in mngmt softver za dinamično konfiguracijo celote. Seveda ne gre brez bios tweakov. Očitno se vrača čas, ko bodo računalniki spet veliki za eno omaro ;)
Izvedel sem, kaj vse fantazirajo za naslednja tri leta in kako mislijo ponucati CXL. Zanimiv detajl je, da je današnja CXL 1.1 implementacija pri AMDju "1.1+", pri Intlu pa "samo" 1.1. Razlika je v tem, da AMD podpira memory hot-add, intel pa ne in zato GigaIO trenutno pretežno dela z AMD piksnami. Ponujajo recimo eno piksno z 32 GPUji, za kar so morali tweakati tako nvidia driverje in cudo kot amdjev RoCm. Skaliranje je odvisno od aplikacije, kaka butasta ala hashcat skalira linearno, kaka malo bolj involved ala resnet50 pa 99% z vsakim dodatnim gpujem, kar pri 32ih na koncu znese 72% idealne vrednosti. Sprejemljivo. Moram jih pocukati za rokav, da mi poženejo kak latency sensitive benchmark ala molecular dynamics, da vidim, koliko so v realnosti boljši od infinibanda.
Danes je razbijanje ene piksne na več manjših trivialno opravilo z virtualizacijo ali kontejnerji, sestavljanje več piksen v en koherenten kos hardvera pa je precej bolj tricky business. V preteklosti smo imeli npr. ScaleMP na infinibandu in Numascale na hypertransportu in QPI, danes pa GigaIO štrika piksne skupaj prek PCIe. Imajo zanimivo FabriX rešitev, ki potengne PCIe preko retimer kartic ven iz piksne, PCIe kable, switche in mngmt softver za dinamično konfiguracijo celote. Seveda ne gre brez bios tweakov. Očitno se vrača čas, ko bodo računalniki spet veliki za eno omaro ;)
Izvedel sem, kaj vse fantazirajo za naslednja tri leta in kako mislijo ponucati CXL. Zanimiv detajl je, da je današnja CXL 1.1 implementacija pri AMDju "1.1+", pri Intlu pa "samo" 1.1. Razlika je v tem, da AMD podpira memory hot-add, intel pa ne in zato GigaIO trenutno pretežno dela z AMD piksnami. Ponujajo recimo eno piksno z 32 GPUji, za kar so morali tweakati tako nvidia driverje in cudo kot amdjev RoCm. Skaliranje je odvisno od aplikacije, kaka butasta ala hashcat skalira linearno, kaka malo bolj involved ala resnet50 pa 99% z vsakim dodatnim gpujem, kar pri 32ih na koncu znese 72% idealne vrednosti. Sprejemljivo. Moram jih pocukati za rokav, da mi poženejo kak latency sensitive benchmark ala molecular dynamics, da vidim, koliko so v realnosti boljši od infinibanda.
pegasus ::
EU bo investirala prek 100M v 6 kvantih sistemov na štirih različnih tehnologijah, ki bodo šli v Španijo, Francijo, Italijo, Nemčijo, Češko in Poljsko. Zaenkrat še zelo eksperimentalne zadeve, a je lepo videti, da imamo interes držati korak z razvojem v svetu. Spontani aplavz publike je dobilo vprašanje, kakšen % tega denarja bo šel v software development :D Odgovor vseh hosting siteov je bil "we're hiring, quantum knowledge and understanding not required".
CoDesign Bof je predstavil nekah uspešnih štorij portanja aplikacij na GPUje. Zanimiva opazka je, da smo z GPUji že praktično 20 let, pa je portanje nanje še vedno nekaj, na kar so ljudje ponosni. Softveraši so zgroženi nad dejstvom, da fizika poriva hardveraše v specializacijo, vedno več bo custom kosov silicija za specifične namene in zaenkrat grozi, da bo tudi vedno več custom vmesnikov in knjižnic za delo s tem hardverom. Kar zna še bolj upočasniti portanje legacy kod na te nove hardvere ...
Nekdo mora udarit po mizi in standardizirat abstrakcije za delo s tem hardverom, da se softverašem olajša življenje. Kak prostovoljec? ;)
CoDesign Bof je predstavil nekah uspešnih štorij portanja aplikacij na GPUje. Zanimiva opazka je, da smo z GPUji že praktično 20 let, pa je portanje nanje še vedno nekaj, na kar so ljudje ponosni. Softveraši so zgroženi nad dejstvom, da fizika poriva hardveraše v specializacijo, vedno več bo custom kosov silicija za specifične namene in zaenkrat grozi, da bo tudi vedno več custom vmesnikov in knjižnic za delo s tem hardverom. Kar zna še bolj upočasniti portanje legacy kod na te nove hardvere ...
Nekdo mora udarit po mizi in standardizirat abstrakcije za delo s tem hardverom, da se softverašem olajša življenje. Kak prostovoljec? ;)
Zgodovina sprememb…
- spremenil: pegasus ()
pegasus ::
Top500 v novicah: https://www.hpcwire.com/2023/05/22/top5...
Graph500 BoF so odpovedali, slišim da ima cel kup ljudi iz čezlužja težave z odpovedanimi poleti. Bom pa jutri dopoldne šel na Green500 BoF.
Graph500 BoF so odpovedali, slišim da ima cel kup ljudi iz čezlužja težave z odpovedanimi poleti. Bom pa jutri dopoldne šel na Green500 BoF.
pegasus ::
Sejmišče letos izgleda nekam otožno. Ni neke gužve, hardvera je precej malo, kjer pa je, je ovešen z ogromnimi cevmi. Zračnega hlajenja praktično ni več, še na mrežnih se pojavljajo ventilatorji. Več kot polovica so neke storitve, od hpc in the cloud, do hpc deploymet & management softvera, workflowov ipd ... Nekaj malega so potem razni zgubljeni kitajci z ventilatorji, napajalniki in hladilniki.
Tradicionalni ponedeljkov Intlov keynote je šokantno prazen. Očitno nikogar več ne zanima, kaj Intel naklada in prodaja. Če še imate Intel delnice, je sedaj skrajni čas da jih prodate. Zabava me dejstvo, da Intel zdaj oglašuje svoje xeone max kot the odgovor na pomanjkanje memory bandwitha, ki so ga sami ustvarili. Trpijo tudi za opazko zgoraj - kdo bo portal kodo na vse te njihove acceleratorje, ki jih dodajajo na cpu package ... uporaba le-teh se mora zgoditi transparentno, če se bodo morali programerji s tem ukvarjat, je ta tech DoA.
Tradicionalni ponedeljkov Intlov keynote je šokantno prazen. Očitno nikogar več ne zanima, kaj Intel naklada in prodaja. Če še imate Intel delnice, je sedaj skrajni čas da jih prodate. Zabava me dejstvo, da Intel zdaj oglašuje svoje xeone max kot the odgovor na pomanjkanje memory bandwitha, ki so ga sami ustvarili. Trpijo tudi za opazko zgoraj - kdo bo portal kodo na vse te njihove acceleratorje, ki jih dodajajo na cpu package ... uporaba le-teh se mora zgoditi transparentno, če se bodo morali programerji s tem ukvarjat, je ta tech DoA.
pegasus ::
Nekaj malega - študenti so, Huawei ima oceanstor razstavljen, pa še nekaj manjših je. Ni pa npr. "Hpc in Asia" segmenta kongresa.
pegasus ::
Green500 BoF je bil packed. Tema postaja vedno bolj vroča, sploh v Nemčiji. Sedaj smo že na 65 gflops/w, kar bi ekstrapolirano pomenilo exaflop mašino v dobrih 15MW. Ampak tu so detajli - energy efficient hpc working group se ukvarja s spremembami metodologje merjenja; do sedaj se je merilo porabo 1/10 sistema in ekstrapoliralo na cel sistem, sedaj bi radi meritve celega sistema, na eno sekundo čez cel HPL run. Trik je v tem, da velike mašine dosegajo slabše rezultate enostavno zato, ker imajo veliko večjo mrežo in pretakanje bitkov po kablih je energetsko drago.
Zanimiva opazka je tudi kako heterogenost vpliva na green500 rezultate. Če gledamo cpu only, je od 2007 naprej napredek zanemarljiv, velikostni razred napredea prinesejo šele GPUji. Kar jasno kaže, v katero smer fizika moli taco in kaj se obeta v prihodnosti. Softveraši pa v jok ...
Zanimiva opazka je tudi kako heterogenost vpliva na green500 rezultate. Če gledamo cpu only, je od 2007 naprej napredek zanemarljiv, velikostni razred napredea prinesejo šele GPUji. Kar jasno kaže, v katero smer fizika moli taco in kaj se obeta v prihodnosti. Softveraši pa v jok ...
pegasus ::
Ena iz post-exaflop sveta: angleški fuzijci imajo izziv spraviti elektriko iz fuzije na omrežje v nekako 20ih letih. Najprej bi radi zgradili digitalni model željenega reaktorja, da preverijo, če vse štima. Že sedaj jim je jasno, da prihajajoče exaflop mašine niso "nowhere near fast enough" za realne simulacije, pa tudi softver je preveč legacy, zato so se odločili štartat iz nule s predpostavkami, da so zettaflop mašine na vsakem drugem vogalu. Kodo pišejo v sycl, za frontend so razvili fizikom razumljiv DSL, kjer se le da hvatajo krivine z ML, štartali pa so z mikro aplikacijami, ki simulirajo en droben kamenček v celem mozaiku. Zanimivo bo spremljati projekt v naslednjih letih ...
pegasus ::
Namesto zaključka ...
Zelo zanimivo je bilo poslušati osvežen talk iz SC22 o tem, kako so spravljali Frontier skupaj in v produkcijo ter kakšne dogodivščine so imeli pri poganjanju linpacka čez cel stroj za namen top500 rezultata. Zadeva je sedaj v produkciji in svež linpack run je doprinesel toliko dodatnih flopsov, da bi se sami po sebi uvrstili na osmo mesto na top500. Pa še niso bili čisto vsi nodei v pogonu za ta run, tako da se bo rezultat v bližnji prihodnosti še malenkost dvignil.
Študentarija je v svoji 3KW omejitvi prvič presegla 100TF na linpacku. Hec je le, da si včasih v 3KW spravil manjši cluster, danes pa le eno piksno, pa še to moraš zelo nazaj držat, da ne gre čez ...
Na razstavišču je bila še ena novost, ki sem jo nekako moral prespati, da sem jo dojel. Nova stara imena: sivi Atos je sedaj oranžen Evidian, Inspur je sedaj IEIT in še nekaj manjših tovrstnih potez ... nisem marketing expert, a gotovo morajo obstajati dovolj velike motivacije, da se take poteze zgodijo. Na market review prezentaciji so sales droni iz raznih večjih firm razlagali svoje poglede na HPC trg in pri vseh je bilo med vrsticami brati nekaj v smislu "you're poor scientists, begging for unique and expensive hardware, while we can chase bigger piles of cash by selling standard configs to industry". Tako da ... nekaj korenitega se bo moralo spremeniti v akademiji, če želi držati korak s trendi na trgu.
So pa letos bili hudo fascinantni postri. Vsako leto najdem ene par zanimivih, letos so bili zanimivi praktično vsi. Očitno je izbor delal nekdo s podobnimi interesi, kot so moji ;)
EuroHPC nadaljuje misijo, ki jo je imel Prace. Ponosno se trkajo na prsa, koliko 100 miljonov cpu ur so že razdelili. Ena raziskovalna skupina bi želela pognati en pregled protein interakcij, za kar bi rabili čez palec nekje tri in pol miljarde cpu ur. Na žalost še nismo tako daleč ... potrebe so prisotne že danes, izvedba bo ekonomsko možna nekoč proti koncu tega desetletja.
Zabaval me je tudi "hpc containers" workshop. Udeležil sem se ga pred leti, pogledal sem ga letos, da vidim kaj je novega ... in ugotovil, da se ukvarjajo s pretežno istimi problemi kot pred leti. Edini viden napredek je zgolj v poskusih standardizacije opisovanja teh problemov, kar naj bi nekoč v prihodnosti omogočalo njihovo programabilno obravnavanje in avtomatsko izbiro pravilnih odločitev za določeno situacijo. Ker v tradicionalnem Lmod+easybuild okolju to imamo že več kot desetletje in je trivialno za implementacijo. Mogoče pogledam spet proti koncu desetletja, kaj bodo naumili ...
Pa še nekaj fotk:
Zelo zanimivo je bilo poslušati osvežen talk iz SC22 o tem, kako so spravljali Frontier skupaj in v produkcijo ter kakšne dogodivščine so imeli pri poganjanju linpacka čez cel stroj za namen top500 rezultata. Zadeva je sedaj v produkciji in svež linpack run je doprinesel toliko dodatnih flopsov, da bi se sami po sebi uvrstili na osmo mesto na top500. Pa še niso bili čisto vsi nodei v pogonu za ta run, tako da se bo rezultat v bližnji prihodnosti še malenkost dvignil.
Študentarija je v svoji 3KW omejitvi prvič presegla 100TF na linpacku. Hec je le, da si včasih v 3KW spravil manjši cluster, danes pa le eno piksno, pa še to moraš zelo nazaj držat, da ne gre čez ...
Na razstavišču je bila še ena novost, ki sem jo nekako moral prespati, da sem jo dojel. Nova stara imena: sivi Atos je sedaj oranžen Evidian, Inspur je sedaj IEIT in še nekaj manjših tovrstnih potez ... nisem marketing expert, a gotovo morajo obstajati dovolj velike motivacije, da se take poteze zgodijo. Na market review prezentaciji so sales droni iz raznih večjih firm razlagali svoje poglede na HPC trg in pri vseh je bilo med vrsticami brati nekaj v smislu "you're poor scientists, begging for unique and expensive hardware, while we can chase bigger piles of cash by selling standard configs to industry". Tako da ... nekaj korenitega se bo moralo spremeniti v akademiji, če želi držati korak s trendi na trgu.
So pa letos bili hudo fascinantni postri. Vsako leto najdem ene par zanimivih, letos so bili zanimivi praktično vsi. Očitno je izbor delal nekdo s podobnimi interesi, kot so moji ;)
EuroHPC nadaljuje misijo, ki jo je imel Prace. Ponosno se trkajo na prsa, koliko 100 miljonov cpu ur so že razdelili. Ena raziskovalna skupina bi želela pognati en pregled protein interakcij, za kar bi rabili čez palec nekje tri in pol miljarde cpu ur. Na žalost še nismo tako daleč ... potrebe so prisotne že danes, izvedba bo ekonomsko možna nekoč proti koncu tega desetletja.
Zabaval me je tudi "hpc containers" workshop. Udeležil sem se ga pred leti, pogledal sem ga letos, da vidim kaj je novega ... in ugotovil, da se ukvarjajo s pretežno istimi problemi kot pred leti. Edini viden napredek je zgolj v poskusih standardizacije opisovanja teh problemov, kar naj bi nekoč v prihodnosti omogočalo njihovo programabilno obravnavanje in avtomatsko izbiro pravilnih odločitev za določeno situacijo. Ker v tradicionalnem Lmod+easybuild okolju to imamo že več kot desetletje in je trivialno za implementacijo. Mogoče pogledam spet proti koncu desetletja, kaj bodo naumili ...
Pa še nekaj fotk:
Poljsko podjetje iz umirajočega crypto sveta išče priložnosti v HPC svetu; predstavili so svoj 1.5MW chiller. Očitno bomo morali ITjevci iz pregovornih vodovodarjev postati kar tapravi vodovodarji
Zimonem ::
Študentarija je v svoji 3KW omejitvi prvič presegla 100TF na linpacku. Hec je le, da si včasih v 3KW spravil manjši cluster, danes pa le eno piksno, pa še to moraš zelo nazaj držat, da ne gre čez ...
Tsmc pa 2,6 kW porabe na single socu.
https://www.anandtech.com/show/18876/ts...
pegasus ::
That's nothing ... Cerebras poriva 12KW v svoj "wafer scale" čip ;)
Bom moral mal elektro fizike ponovit, kakšne tokove lahko sploh na nek presek vodnika pelješ, preden se ti zadeve začnejo talit ...
Bom moral mal elektro fizike ponovit, kakšne tokove lahko sploh na nek presek vodnika pelješ, preden se ti zadeve začnejo talit ...
zee ::
Nekaj malega - študenti so, Huawei ima oceanstor razstavljen, pa še nekaj manjših je. Ni pa npr. "Hpc in Asia" segmenta kongresa.
Kaj so pa potem Singapurci iz NSCC-ja delali tam? Pfff.
zee
Linux: Be Root, Windows: Re Boot
Giant Amazon and Google Compute Cloud in the Sky.
Linux: Be Root, Windows: Re Boot
Giant Amazon and Google Compute Cloud in the Sky.
pegasus ::
V čezlužju se je končal SC'23. Enega bolj zanimivih povzetkov za širšo publiko so pripravili "influencerji":
zee ::
Si bil tam?
zee
Linux: Be Root, Windows: Re Boot
Giant Amazon and Google Compute Cloud in the Sky.
Linux: Be Root, Windows: Re Boot
Giant Amazon and Google Compute Cloud in the Sky.
zee ::
Hehe. Fino, jaz sem bil pa na številki 20 na Top500.
zee
Linux: Be Root, Windows: Re Boot
Giant Amazon and Google Compute Cloud in the Sky.
Linux: Be Root, Windows: Re Boot
Giant Amazon and Google Compute Cloud in the Sky.
Vredno ogleda ...
Tema | Ogledi | Zadnje sporočilo | |
---|---|---|---|
Tema | Ogledi | Zadnje sporočilo | |
» | ISC '22Oddelek: Znanost in tehnologija | 1126 (699) | pegasus |
» | ISC 2019Oddelek: Znanost in tehnologija | 1808 (1118) | pegasus |
» | ISC 2018Oddelek: Znanost in tehnologija | 1408 (1114) | pegasus |
» | ISC15Oddelek: Znanost in tehnologija | 3314 (1232) | pegasus |
» | ISC13 LepizigOddelek: Znanost in tehnologija | 1924 (1383) | pegasus |