» »

AMD Vega GPU

AMD Vega GPU

Temo vidijo: vsi
««
49 / 138
»»

RejZoR ::

4 x 4 = 16

Threadripper je 16 core 32 thread CPU. To kar vidiš so že štirje quadi (CCX-i).
Angry Sheep Blog @ www.rejzor.com

Senitel ::

Grey je izjavil:

Senitel je izjavil:

 Tale shema

Tale shema


 Kaj pa tale shema?

Kaj pa tale shema?


A vidiš kje na 4 modulih da se vizuelno vidi, da sta po dva Quada noter?

Linkal si EPYC. To so štirje Zeppelin die-i (8 corov, 2 CCX-a).

Grey ::

Senitel je izjavil:

Grey je izjavil:

Senitel je izjavil:

 Tale shema

Tale shema


 Kaj pa tale shema?

Kaj pa tale shema?


A vidiš kje na 4 modulih da se vizuelno vidi, da sta po dva Quada noter?

Linkal si EPYC. To so štirje Zeppelin die-i (8 corov, 2 CCX-a).

Ja...? Kaj sem pa jaz napisal?

Grey ::

Heh...ali španci vedo eno več ali pa drugi niso nič napisali glede tega... :D

AMD ha publicado una fotografía de su Vega 10 ASIC. En esta se muestra el módulo multi-chip (MCM) de la GPU y sus dos pilas de memoria HBM2. No se diferencian en la imagen los componentes del DIE de la GPU.

Es un modelo pequeño, cuenta con solo dos apilaciones de memoria HBM2. Se presume que cuente también con ocho motores de sombreado. Cada uno de ellos tiene 8 Compute Units. Tomando en cuenta que cada Compute Unit cuenta con 64 stream processors FP32, entonces el total de shaders sería de 4,096.

Gracias a dicha cantidad de shaders, se puede realizar cálculos FP16. Estos alcanzan el doble de rendimiento. También contaría con 32 back-ends y unos 128 ROPs. Por último, las "Vega 10" cuentan con una interfaz de memoria HBM2 de 2048 bits.

No se han revelado más detalles al respecto. Habrá que esperar a la SIGGRAPH 2017 el próximo 30 de julio para que AMD de más información respecto a las RX Vega y a su lanzamiento.


Link

Se pravi...če je to res, kar so napisali, potem res seka po polovici svoje moči trenutno (2048-128-64) @ 1440 - 1650

Zgodovina sprememb…

  • spremenilo: Grey ()

Predator X ::

Grey je izjavil:

Heh...ali španci vedo eno več ali pa drugi niso nič napisali glede tega... :D

AMD ha publicado una fotografía de su Vega 10 ASIC. En esta se muestra el módulo multi-chip (MCM) de la GPU y sus dos pilas de memoria HBM2. No se diferencian en la imagen los componentes del DIE de la GPU.

Es un modelo pequeño, cuenta con solo dos apilaciones de memoria HBM2. Se presume que cuente también con ocho motores de sombreado. Cada uno de ellos tiene 8 Compute Units. Tomando en cuenta que cada Compute Unit cuenta con 64 stream processors FP32, entonces el total de shaders sería de 4,096.

Gracias a dicha cantidad de shaders, se puede realizar cálculos FP16. Estos alcanzan el doble de rendimiento. También contaría con 32 back-ends y unos 128 ROPs. Por último, las "Vega 10" cuentan con una interfaz de memoria HBM2 de 2048 bits.

No se han revelado más detalles al respecto. Habrá que esperar a la SIGGRAPH 2017 el próximo 30 de julio para que AMD de más información respecto a las RX Vega y a su lanzamiento.


Link

Se pravi...če je to res, kar so napisali, potem res seka po polovici svoje moči trenutno (2048-128-64) @ 1440 - 1650


zdej pa že pretiravate. Vse teorije etc.. na koncu je važn performance.

Senitel ::

Grey je izjavil:

Senitel je izjavil:

Grey je izjavil:

Senitel je izjavil:

 Tale shema

Tale shema


 Kaj pa tale shema?

Kaj pa tale shema?


A vidiš kje na 4 modulih da se vizuelno vidi, da sta po dva Quada noter?

Linkal si EPYC. To so štirje Zeppelin die-i (8 corov, 2 CCX-a).

Ja...? Kaj sem pa jaz napisal?

Glej, ne vem če znaš štet. Mal nazaj si tripal na NV research na temo MCM GPU, kjer se je eksplicitno šlo za rešitev na večih die-ih (ker bi bil en monoliten prevelik za izdelavo). Vega je očitno monoliten die, ti linkaš nekaj kar je na večih die-ih.
Po tvoje je zdej GPU s 4 rasterji, 64 CU-ji in 64 ROP-i iz nekega razloga slabši kot nek "dual core" GPU, kjer je en "core" sestavljen iz dveh rasterjev, 32 CU-jev in 32 ROP-i, čeprav je še zmer na enem die-u.
Zdej tle cruisaš med tem, da je Vega FE (ki je zunaj btw) nekje med 32 CU-ji, 64 CU-ji in 96 CU-ji in med 64 ROP-i in 128 ROP-i. Vse kar je po tvoje ziher je 484mm^2. 128 ROP-ov samo zato, ker ena opica online ne ve a šteje banane al pomaranče in potem trop drugih opic naredi 5000 novic iz tega. In sedaj boš še na veliki zvon obešal, eno špansko stran, ki je uporabila MCM modul za GPU čip + 2 HBM2 čipa. :))

Očitno ti sede bit klovn in za odpravo psiholoških težav jaz nisem usposobljen. Drugo je pa zdej zakaj misliš da ima kdor koli kakšrno koli korist ob teh tvojih online halucinacijah. Bo AMD prodal več čipov zaradi tebe? Al si bo kdo mislil, da ste fanatiki pač fanatično usekani čez 3 tedne?
In o ja, jaz te bom držal za 550€ Titan XP gaming performance.

RejZoR ::

Moja predikcija je, da se bo AMD igral z Infinity Fabric interconnectom pri dual GPU Vegi. Najverjetneje s fizično ločenima GPU-jema vsak na svojem interposerju. Nekako dvomim, da bojo stlačili 2x Vega GPU-ja in 4x stack HBM2 spomina na en interposer. Idealno bi sicer bilo zaradi čim manjših fizičnih razdalj, ampak vseeno močno dvomim. Bi pa bilo zanimivo. Ampak bo bolj kot ne test pilot projekt za Navi, ki pa pride kdo ve kdaj...
Angry Sheep Blog @ www.rejzor.com

D3m0r4l1z3d ::

Za vse te podvige bodo morali poleg manjšanje litografije še kakšen trik iz rokava privleči, ker imajo p/w še vedno hudo nekonkurenčen, kar še ne bi bilo toliko narobe, če bi bila absolutna vrednost dosti nižja.
ETN Wallet addr.: etnkGuvhDzR7Dh8us4e69VStubGbmQHrh5pe2fnpNDhEhX5
A1nCWrFBMK2NmkycgVN4sAwhvY8YyNNbF6KUSJyFZ99QKU8phCn
Cryptopia ref. link: https://www.cryptopia.co.nz/Register?referrer=Anymalus

RejZoR ::

Jezst bom glede tega sodil šele na release dan. Je preveč neznank glede pravilnega delovanja Vega FE kartice kar se tiče driverjev. Sploh ker se kar precej govori o tem, da precej power saving funkcij sploh ne deluje, da je tiling nedelujoč oz neaktiven in podobne zadeve. To definitivno vpliva na porabo. Ko bo zunaj driver za katerega bo AMD rekel, to je to, zdej vse deluje in bo poraba še vedno krepko višja, pol se bo pa debatiralo naprej. Sigurno bojo višjo porabo kompenzirali z nižjo ceno kar privabi folk anyway.
Angry Sheep Blog @ www.rejzor.com

Jst ::

Grey:

Ti si videl tole:



In misliš, da bo RX Vega takšne arhitekture? Razmisli logično: Zakaj bi Vega FE bila monolitna, skoraj 400 watna zverinska arhitektura, medtem imajo pa dosti bolj učinkovito RX Vego z MCM? Ni logično, razen če je tudi FE MCM, kar pa po vseh informacijah, slikah, testih in x-ray slikah pač ni.

Za MCM mora biti temu primeren design arhitekture. Je pa res čisto možno, da bo Navi na 7nm res MCM.

Ampak z MCM se spet odpre nov can of worms. Infinity Fabric deluje dobro na CPU, ker so "threadi podatkovno lokalni" in je komunikacije med posamičnimi jedri malo, ker so tako zasnovani schedulerji operacijskih sistemov že več kot 30 let.

GPUji so pa pravo nasprotje. So smešno-ogromno paralelne beštije, v katerih je 2000-4000 majhnih računskih enot, kateri ne komunicirajo med seboj in ker je paralelnost tako visoka, te že majhni podatkovni "shuffle" tako grdo penalizira, da so možnosti samo dve: 1. You're doing it wrong. 2. Neprimerna naloga za GPU.

Ryzen z DDR4 komunicira z recimo 35 GB na sekundo in Infinity Fabric je temu kar lepo prilagojen (Zato ni takšnih penalov, če se delo "preklada" iz enega CCX na drugega.). GPU pa z GDDR5 komunicira z 500 GB/s (skoraj DESETKRAT več). Sedaj pa premisli...
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

Jst ::

>Ob tem demotu je bilo eksplicitno rečeno, da gre za simulirano 2GB Vega karto.

Tega nisem vedel, hvala za popravek.


>What conundrum? I don't see any. Vidim samo primerjavo jabolk in kislih kumaric...

Torej, Vega je "samo" beefed up Fury X v manjši litografiji? V bistvu je še slabša, če znižaš Core clock na Fury. Nekaj ne štima... Jabolka in kisle kumarice, definitivno.
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

Senitel ::

Jst je izjavil:

GPUji so pa pravo nasprotje. So smešno-ogromno paralelne beštije, v katerih je 2000-4000 majhnih računskih enot, kateri ne komunicirajo med seboj in ker je paralelnost tako visoka, te že majhni podatkovni "shuffle" tako grdo penalizira, da so možnosti samo dve: 1. You're doing it wrong. 2. Neprimerna naloga za GPU.

Sure you can (komuniciraš med threadi). AMD nomenklatura, če smo že v AMD threadu. Imaš LDS kjer si lahko vsi threadi v bloku delijo podatke (8.6 TB/s na Fury X). Imaš tudi shuffle operacije med threadi v wavefrontu (cross lane operations), ki so še bistveno hitrejše od LDS. Če se hočeš pa globalno pogovarjat med threadi je pa memory hiearhija edina varianta. To je pol 1TB/s za L2 na Fury X.
Edin hudič je, ker je taka masovka od threadov, da je zelo vitalno, da se najprej znotraj wavefronta pomeniš med sabo, potem znotraj bloka in šele potem globalno. Da niti ne omenjam Volte...

Predator X ::

Jst je izjavil:

Grey:

Ti si videl tole:



In misliš, da bo RX Vega takšne arhitekture? Razmisli logično: Zakaj bi Vega FE bila monolitna, skoraj 400 watna zverinska arhitektura, medtem imajo pa dosti bolj učinkovito RX Vego z MCM? Ni logično, razen če je tudi FE MCM, kar pa po vseh informacijah, slikah, testih in x-ray slikah pač ni.

Za MCM mora biti temu primeren design arhitekture. Je pa res čisto možno, da bo Navi na 7nm res MCM.

Ampak z MCM se spet odpre nov can of worms. Infinity Fabric deluje dobro na CPU, ker so "threadi podatkovno lokalni" in je komunikacije med posamičnimi jedri malo, ker so tako zasnovani schedulerji operacijskih sistemov že več kot 30 let.

GPUji so pa pravo nasprotje. So smešno-ogromno paralelne beštije, v katerih je 2000-4000 majhnih računskih enot, kateri ne komunicirajo med seboj in ker je paralelnost tako visoka, te že majhni podatkovni "shuffle" tako grdo penalizira, da so možnosti samo dve: 1. You're doing it wrong. 2. Neprimerna naloga za GPU.

Ryzen z DDR4 komunicira z recimo 35 GB na sekundo in Infinity Fabric je temu kar lepo prilagojen (Zato ni takšnih penalov, če se delo "preklada" iz enega CCX na drugega.). GPU pa z GDDR5 komunicira z 500 GB/s (skoraj DESETKRAT več). Sedaj pa premisli...


Ja driver ne štima. Ostalo je gut.

D3m0r4l1z3d ::

Senitel je izjavil:

Jst je izjavil:

GPUji so pa pravo nasprotje. So smešno-ogromno paralelne beštije, v katerih je 2000-4000 majhnih računskih enot, kateri ne komunicirajo med seboj in ker je paralelnost tako visoka, te že majhni podatkovni "shuffle" tako grdo penalizira, da so možnosti samo dve: 1. You're doing it wrong. 2. Neprimerna naloga za GPU.

Sure you can (komuniciraš med threadi). AMD nomenklatura, če smo že v AMD threadu. Imaš LDS kjer si lahko vsi threadi v bloku delijo podatke (8.6 TB/s na Fury X). Imaš tudi shuffle operacije med threadi v wavefrontu (cross lane operations), ki so še bistveno hitrejše od LDS. Če se hočeš pa globalno pogovarjat med threadi je pa memory hiearhija edina varianta. To je pol 1TB/s za L2 na Fury X.
Edin hudič je, ker je taka masovka od threadov, da je zelo vitalno, da se najprej znotraj wavefronta pomeniš med sabo, potem znotraj bloka in šele potem globalno. Da niti ne omenjam Volte...

Če se ti da, lahko v Volta temi
https://slo-tech.com/forum/t680691/99

Za naslednika se že kaj ve, nič nimajo magic prezentacij. Mogoče naslednik Volte MCM?
ETN Wallet addr.: etnkGuvhDzR7Dh8us4e69VStubGbmQHrh5pe2fnpNDhEhX5
A1nCWrFBMK2NmkycgVN4sAwhvY8YyNNbF6KUSJyFZ99QKU8phCn
Cryptopia ref. link: https://www.cryptopia.co.nz/Register?referrer=Anymalus

Grey ::

Senitel je izjavil:

Glej, ne vem če znaš štet. Mal nazaj si tripal na NV research na temo MCM GPU, kjer se je eksplicitno šlo za rešitev na večih die-ih (ker bi bil en monoliten prevelik za izdelavo). Vega je očitno monoliten die, ti linkaš nekaj kar je na večih die-ih.

Šur Senitel, šur. Še enkrat preberi, kaj sem napisal glede teh čokoladk in števila jeder v eni. Sploh si pa totalno mimo konteksta usekal s tisto fotko Vege in seveda tripam na latest tech in na multi-core GPU per se, kar vključuje vse možne izpeljanke.

Senitel je izjavil:

Po tvoje je zdej GPU s 4 rasterji, 64 CU-ji in 64 ROP-i iz nekega razloga slabši kot nek "dual core" GPU, kjer je en "core" sestavljen iz dveh rasterjev, 32 CU-jev in 32 ROP-i, čeprav je še zmer na enem die-u.
Zdej tle cruisaš med tem, da je Vega FE (ki je zunaj btw) nekje med 32 CU-ji, 64 CU-ji in 96 CU-ji in med 64 ROP-i in 128 ROP-i. Vse kar je po tvoje ziher je 484mm^2.:))

Amm, spet failaš kontekst tako kot prej, ker tega nisem rekel niti ni logično. Tako, da prosim...

In, če cruisam? Skušam ugotovit, kaj delajo in zadeva še ni dokončna - RX Vega še ni zunaj. Zato so še vedno odprte vse možnosti in gledam z vseh kotov. Ko pride ven in bodo jasno napisali, da je RX Vega taka in taka, da planirajo to in to bla bla bla. Potem bo zame stvar definirana in set in stone. Posodobim svoj fact database, predictor in grem naprej. Simple ko pasulj.

Do takrat pa je lahko noter 50 jeder (karikirano)…dovoljeno popolnoma vse in s tem lahko nastanejo manj ali bolj možne ideje.

- prikazana core frekvenca ostane nespremenjena glede na padec trenutne porabe
- dvojni set napajalnega sistema na PCB
- core voltage control ne deluje v WattMan
- nepričakovano nesposoben performans v Unigine Heaven glede na 1650 MHz 4096/256/64 (cca enake točke kot overclock R9 290X 1600 MHz)
- 375W porabe na 1650 MHz: 120-150W chip power v HWInfo pri 1600 MHz, HBM2 pomnilnik na Vegi porabi do 60W (kam je šlo ostalih 150W?)
- jedro je površinsko outlier in večje glede na ostale GCN variante
- Vega Cube
- Threadripper ima dovolj PCIe laneov za 6 grafičnih kartic
- Koduri: consumer RX will be much better optimized for all the top gaming titles, and flavors of RX Vega will actually be faster than Frontier version!
- Koduri: Vega is going to be our first Infinity Fabric GPU
- Koduri: Like Fiji, Vega will excel in small form factors etc due to HBM2 advantages
- Koduri: We haven't mentioned any multi-GPU designs on a single ASIC like Epyc, but the capability is possible with Infinity Fabric.
- BIOS bo AIBjem baje izdan šele 2. avgusta
- AMD že zna delat R7 multi-core čokoladke

Glede na te točke in ker si dovolim pogledat čez ograjo in vzet multi-core opcijo kot potencialno resnično, sem prišel do parih možnih outcomov od katerih bo en zagotovo resničen. Pač ob launchu bom videl, katera je prava.

Čist btw, R9 Fury Nano ima TDP 175W na 28nm (900 MHz, 4096/256/64) in ima enake specifikacije kot R9 Fury X (1000 MHz/4096/256/64), ki ima 275W TDP. AHOC je testiral Vega FE porabo vs Core Clock in na 900 MHz porabi 228W. Odštejemo stran HBM2 porabo in smo na 170W. Zmanjšan, 14-nanometrski Nano bi verjetno trošil manj kot 80W (pomnožiš x 2 pa si tam tam s Total Power številkami). Torej...še vedno je možnost, da sta noter dve jedri in da dela s cca polovičnim performansom. Če je res, pa vidimo ob izidu kartice in AMDjevem press releasu za RX Vega.

Senitel je izjavil:

Očitno ti sede bit klovn in za odpravo psiholoških težav jaz nisem usposobljen. Drugo je pa zdej zakaj misliš da ima kdor koli kakšrno koli korist ob teh tvojih online halucinacijah. Bo AMD prodal več čipov zaradi tebe? Al si bo kdo mislil, da ste fanatiki pač fanatično usekani čez 3 tedne?
In o ja, jaz te bom držal za 550€ Titan XP gaming performance.

Zdaj, če analitičen pristop do sinteze različnih informacij zate pomeni, da je človek klovn in ima psihološke težave, potem analitičen zagotovo nisi. Sreča, da sploh zmoreš GPU programiranje. Pravzaprav...fascinantno.
Mogoče da moje pisanje komu drugačno perspektivo, odpre nove točke diskusije itd. 49 strani v temi od še neizdane kartice...kaj drugega od guesstimate in "halucinogene" vsebine pričakuješ?

Senitel ::

Sej če na lotu pokupiš vse kombinacije boš tudi ziher zadel. In točno to ti delaš. Po tvoje bo Vega RX nekje od 32 CU-jev pa do 96 CU-jev in pol ko jih bo 64 boš proglasil, da si imel prav. :)) Analitičen pristop ja. :)) Jaz ti sedaj rečem, da jih bo 64, tako kot na FE. Isto bo 64 ROP-ov, tako kot na FE. Ampak to je precej boring.

In other news, ouč on effective texture bandwidth.

RejZoR ::

Vega XT in XTX bosta imeli 64 CU, Vega XL bo imela 56 CU. Mislim da povsem enak arrangement kot med R9 Fury X in R9 Fury Vanilla...

https://www.reddit.com/r/Amd/comments/6...
Angry Sheep Blog @ www.rejzor.com

D3m0r4l1z3d ::

Boring...
ETN Wallet addr.: etnkGuvhDzR7Dh8us4e69VStubGbmQHrh5pe2fnpNDhEhX5
A1nCWrFBMK2NmkycgVN4sAwhvY8YyNNbF6KUSJyFZ99QKU8phCn
Cryptopia ref. link: https://www.cryptopia.co.nz/Register?referrer=Anymalus

Grey ::

Senitel je izjavil:

Sej če na lotu pokupiš vse kombinacije boš tudi ziher zadel. In točno to ti delaš. Po tvoje bo Vega RX nekje od 32 CU-jev pa do 96 CU-jev in pol ko jih bo 64 boš proglasil, da si imel prav. :)) Analitičen pristop ja. :)) Jaz ti sedaj rečem, da jih bo 64, tako kot na FE. Isto bo 64 ROP-ov, tako kot na FE. Ampak to je precej boring.

Oh zdej pa že izkrivljaš besede. :)) Seveda bo enako, ker bo samo ena različica RX Vega, ane? :))

Jst ::

Da, če threadi v wavefrontu komunicirajo preko Cache-a, potem zadeva laufa hitro. Zato moraš workloade "pakirati", da se ne premetavajo podatki po vsej hiearhiji rama.

Itak mi je to jasno, ker kaj veliko drugače niti ne more biti...


---

Torej, ti si mnenja, da je arhitektura slabša od Fury X, o drugih sumljivih stvari (neverjeten performanse v "prosumer" workloadih) si pa ne upaš niti špekulirati... :/
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

Senitel ::

Jst je izjavil:

Da, če threadi v wavefrontu komunicirajo preko Cache-a, potem zadeva laufa hitro.

LDS/Shared memory ni cache.

Jst je izjavil:

Torej, ti si mnenja, da je arhitektura slabša od Fury X, o drugih sumljivih stvari (neverjeten performanse v "prosumer" workloadih) si pa ne upaš niti špekulirati... :/

Kater neverjeten performanse v "prosumer" workloadih? Kaj je za špekulirat? Vega je navit Fury s kar lepim številom novimih feature-jev (med drugim FL_2_1)

Jst ::

Ta LDS?



OK, ni L1/L2 cache v tradicionalnem smislu, ampak je Cache. Semantika. Ampak če se na veliko zanašaš na komunikacijo preko LDS, "you're doing it wrong."


---

No, pa si se izjasnil, hvala.

Če kdo ni razumel, Senitel-ovo mnenje je, da je VEGA die shrink Fury-ja X z HBM2, interna arhitektura pa ni doživela kakšnih *velikih* sprememb. To delno potrjuje tudi poskus, če znižaš Vegin Core Clock na Fury X in znižaš Memory Clock na nivo bandwidtha FuryX, kot so naredili poskus na Gamer Nexus. Performans enak (ponekod malenkost slabši, ponekod malenkost boljši). Takšna primerjava je jalova (kisle kumarice!), ni nek reprezantiven test, ampak samo kot zanimivost.


---

>Ob tem demotu je bilo eksplicitno rečeno, da gre za simulirano 2GB Vega karto.



Tukaj Koduri pravi, da so dali na voljo 2 GB in na prvem izklopili HBCC. To je malenkost drugače, kot "simulirana 2 GB Vega". Semantika! Je kar "prava" Vega, ne simulirana.

Še vedno nisi napisal, na kakšen način točno HBCC pripomore k hitrejšem performansu, kot v posnetku zgoraj. "Ne vem" si pa ne upaš reči... (Za "Koduri razlago" pa vemo vsi, ampak to je zame "gostilniška" razlaga.)


There are no stupid questions, only stupid answers.
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

Zgodovina sprememb…

  • spremenil: Jst ()

D3m0r4l1z3d ::

Naj bi bila Vega XTX, XT in XL, prvi dve sta ista čipa kot v FE, prvi vodno hlajen 375w, drugi zračno 285w. Tretji je cut down in bo edini v AIB flavours, poraba kot XT.

Jst, glede na to, da si tako pameten, kater neverjeten performanse v "prosumer" workloadih?

Za konkurenčnost pri 300w grafičnih rabijo Fury X 2x performance.
ETN Wallet addr.: etnkGuvhDzR7Dh8us4e69VStubGbmQHrh5pe2fnpNDhEhX5
A1nCWrFBMK2NmkycgVN4sAwhvY8YyNNbF6KUSJyFZ99QKU8phCn
Cryptopia ref. link: https://www.cryptopia.co.nz/Register?referrer=Anymalus

Zgodovina sprememb…

Senitel ::

Jst je izjavil:

Ta LDS?

Da, ta LDS.

Jst je izjavil:

OK, ni L1/L2 cache v tradicionalnem smislu, ampak je Cache. Semantika. Ampak če se na veliko zanašaš na komunikacijo preko LDS, "you're doing it wrong."

Sematika. Zakaj potem registri niso cache? Ali v bistvu so na tem forumu...
In ne, če se veliko zanašaš na komunikacijo preko LDS "you're not doing it wrong". Not even fucking close. Če hočeš množit dve (veliki) matriki je LDS vitalnega pomena, da dosežeš peak performance. Brez njega ni šans. In peak performance pomeni 95+% teoretičnih flopsov.

Jst je izjavil:

Če kdo ni razumel, Senitel-ovo mnenje je, da je VEGA die shrink Fury-ja X z HBM2, interna arhitektura pa ni doživela kakšnih *velikih* sprememb. To delno potrjuje tudi poskus, če znižaš Vegin Core Clock na Fury X in znižaš Memory Clock na nivo bandwidtha FuryX, kot so naredili poskus na Gamer Nexus. Performans enak (ponekod malenkost slabši, ponekod malenkost boljši). Takšna primerjava je jalova (kisle kumarice!), ni nek reprezantiven test, ampak samo kot zanimivost.

V splošnem sicer že 2 leti vlečem vem feature level 12_1. Če ti misliš, da to ni velika sprememba... Tudi prav. Zame to ni ravno malenkostna sprememba, da je AMD končno "on board with that one".
Kot sem že pisal za clock for clock primerjave Vega nima kakšnih posebnih feature-jev, ki bi dvignili performance.
Glede na dejanski performance se pa dogaja nekaj čudnega s TMU-ji (link na B3D performance suite v enem mojih prejšnjih postov). Ali je to driver bug ali je bila neka sprememba v hardware-u bomo pa videli.

Jst je izjavil:

Tukaj Koduri pravi, da so dali na voljo 2 GB in na prvem izklopili HBCC. To je malenkost drugače, kot "simulirana 2 GB Vega". Semantika! Je kar "prava" Vega, ne simulirana.

Seveda je Vega prava. Ampak od 8GB ali 16GB ali kolikor že pač ima fizično HBM2 na karti je imela na razpolago samo 2GB. Zato: "simulirana 2GB Vega". "To simulate the kind of benefit of high bandwidth cache we actually turned it down the memory size to 2GB." In preden zabluzimo še naprej: ja, full bandwidth čez oba HBM2 kanala, full fillrate, full texel fillrate, full compute rate, samo svojega rama vidi le 2GB. Torej en primer z Vega kartico, ki ima na razpolago 2GB HBM2 in ima vklopljen HBCC in drug primer z Vega kartico, ki ima na razpolago 2GB HBM in ima izklopljen HBCC.
Niti približno pa ne nekaj v stilu 16GB Vega z HBCC off in 16GB Vega z HBCC in 2GB memorije za ta "high bandwidth cache", al kar koli že pač ti misliš, da je AMD prikazal?

Jst je izjavil:

Še vedno nisi napisal, na kakšen način točno HBCC pripomore k hitrejšem performansu, kot v posnetku zgoraj. "Ne vem" si pa ne upaš reči... (Za "Koduri razlago" pa vemo vsi, ampak to je zame "gostilniška" razlaga.)


There are no stupid questions, only stupid answers.

Any sufficiently advanced technology is indistinguishable from magic?
Ne vem kaj naj rečem, če sploh ne razumem kaj si ti predstavljaš, da je AMD pokazal. Kaj AMD je pokazal sem pa tudi že parkrat razložil. Za failure v komunikaciji pa tudi ne morem bit samo jaz odgovoren.

RejZoR ::

A folku res še vedno ni jasno glede prezentacije HBC? Umetno so omejil na 2GB, da so prikazal obstoječ špil kako deluje v obeh situacijah. Ker če tega ne bi storil bi špil pač cel šel v VRAM in ne bi videl fore. Zunaj pa še ni špila, ki bi bil tolk agresiven s spominom, da bi lahko v živo prikazal tak scenarij na ne-omejeni Vegi. Zato so ga pač umetno ustvarili. Kar se tud lepo vidi. Deus Ex na 2GB enostavno ne deluje lepo, ker je premalo. Na 2GB z vključenim HBC pa dela tekoče, ker grafična podatke shuffla v RAM. Ki je še vedno hitrejši kot če spomina sploh ni več na voljo. Čist jasna zadeva od prve minute, ko sem videl predstavitev na live streamu.
Angry Sheep Blog @ www.rejzor.com

Senitel ::

RejZoR je izjavil:

Na 2GB z vključenim HBC pa dela tekoče, ker grafična podatke shuffla v RAM. Ki je še vedno hitrejši kot če spomina sploh ni več na voljo.

Tudi brez HBCC bi grafa še vedno shufflala v ram (oziroma shuffla v onem demotu). Če nebi, potem igra niti ne bi mogla delovat. Razlika je v tem, da s HBCC shuffla samo tisto kar se dejansko rabi.

RejZoR ::

Ja, sam razliko pa vidiš v frameratu če se to dela kot je bilo do sedaj in če to dela HBC.

Btw, HBC je skupno ime za celotni sistem, HBCC pomeni samo controller od HBC...
Angry Sheep Blog @ www.rejzor.com

Predator X ::

Wait for the driver.

Predator X ::

Jst ::

Na 2GB z vključenim HBC pa dela tekoče, ker grafična podatke shuffla v RAM. Ki je še vedno hitrejši kot če spomina sploh ni več na voljo. Čist jasna zadeva od prve minute, ko sem videl predstavitev na live streamu.


Koduri razlaga: HBCC skrbi, da dovaja HBM2 samo tiste podatke, ki jih rabi, zato z vključenim HBCC dela tekoče. Enostavno? Kako pa ve, katere podatke bo GPU potreboval, katere pa ne? To mi ni jasno. Ker če za to skrbi driver, zakaj sploh potreba po HBCC?

Niti približno pa ne nekaj v stilu 16GB Vega z HBCC off in 16GB Vega z HBCC in 2GB memorije za ta "high bandwidth cache", al kar koli že pač ti misliš, da je AMD prikazal?


Ne, tebe sem razumel, da so simulirali, ne dejansko poganjali, glede na njihove interne teste, koliko VRAMA je alociranega in koliko je dejansko v uporabi, kaj bi se zgodilo.


---

Jep, it's magic, i'm mentally impaired, leave me be in my own ignorance.


Jst, glede na to, da si tako pameten, kater neverjeten performanse v "prosumer" workloadih?


Takšen, da se 1000 EUR kosa (in preseže) 5000 EUR vredno.
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

D3m0r4l1z3d ::

5000eur je cena, vredno pa toliko kot ti pač je, če ni alternative na trgu, so tudi za 5k prodajal.
ETN Wallet addr.: etnkGuvhDzR7Dh8us4e69VStubGbmQHrh5pe2fnpNDhEhX5
A1nCWrFBMK2NmkycgVN4sAwhvY8YyNNbF6KUSJyFZ99QKU8phCn
Cryptopia ref. link: https://www.cryptopia.co.nz/Register?referrer=Anymalus

m0LN4r ::

No ja ni nek presezek niti v prosumer zadevah,
samo tam kjer nasplosno radeonke ze od nekdaj prednjacijo. Ni tu fora v Vegi.
Je ena 280X tudi zelo dobra v catia, creo, snx... Drugje pa za drek, isto FegiVegi
https://www.youtube.com/user/m0LN4r

Senitel ::

Jst je izjavil:

Koduri razlaga: HBCC skrbi, da dovaja HBM2 samo tiste podatke, ki jih rabi, zato z vključenim HBCC dela tekoče. Enostavno? Kako pa ve, katere podatke bo GPU potreboval, katere pa ne? To mi ni jasno. Ker če za to skrbi driver, zakaj sploh potreba po HBCC?

HBCC je del GPU-ja. V štartu dumpne vse v GPU memory, če je stvari preveč se že rahlo zaplete (katere spraviš ven? tisto kar se kreira, ali tisto kar je že na grafi?). Potem enkrat en pixel shader senči nek pixel in hoče samplat 0x000F324B. HBCC skoči pokonci, ups tega nimam (page fault), ustavi wavefront, pogleda česa se lahko znebi, rukne page v sistemski ram in uploadne page kjer je 0x000F324B v lokalni ram in označi suspendiran wavefront, da lahko nadaljuje. Vmes lahko CU obdeluje druge wavefronte.
Driver mora skrbet za "the big picture", ker ve kaj sledi čaz X draw komand in ima kontekst kaj igra počne z resource-i (profil). HBCC je zadnja črta, ki se jo v vsakem primeru hočeš izognit in zato je driver, kot sem že omenil, v bistvu kompliciran del te cele zgodbe. Ene igre delajo to v bistvu čisto software-sko in v teh primerih bo mnogo mnogo bolje, če HBC pusti stvari povsem pri miru. Tud sistemski ram lahko s tem zafilaš hitro ko keks.

Jst je izjavil:

Ne, tebe sem razumel, da so simulirali, ne dejansko poganjali, glede na njihove interne teste, koliko VRAMA je alociranega in koliko je dejansko v uporabi, kaj bi se zgodilo.

Na live demotu so očitno dejansko poganjali. So pa tudi simulirali, preden so se sploh lotili inžiniringa tega, kolk rama se igre dejansko dotikajo iz frame-a v frame. Zaključki tega so bili tudi povedani: okrog 50%. Torej lahko 8GB HBCC karta tekoče poganja špil, ki "rabi" 16GB rama na grafi.

Jst je izjavil:

Takšen, da se 1000 EUR kosa (in preseže) 5000 EUR vredno.

It still gets it's ass handed to it s strani Quadro P4000 za 850€, če se pogovarjamo o CAD aplikacijah. 5000€ je pa že skor bližje Quadro GP100 kot Quadro P6000... Zato moje vprašanje o katerih "prosumer" loadih se pogovarjamo?

D3m ::

P4000?

Where?
|HP EliteBook|R5 6650U|

D3m0r4l1z3d ::

Verjetno imajo vse že spolirano le oddelek marketinga jih še zaustavlja, le kako bodo 4gb 4k super high end grafo prodajali.
ETN Wallet addr.: etnkGuvhDzR7Dh8us4e69VStubGbmQHrh5pe2fnpNDhEhX5
A1nCWrFBMK2NmkycgVN4sAwhvY8YyNNbF6KUSJyFZ99QKU8phCn
Cryptopia ref. link: https://www.cryptopia.co.nz/Register?referrer=Anymalus

Senitel ::

D3m je izjavil:

P4000?

Where?

Point je v kateri prosumer aplikaciji je ta silna prednost. Ja Vega FE je pretty damn awesome, če rabiš poceni FP16 performance. Če rabiš FP64 performance pa bolje, da jo takoj pozabiš. Primer pač.

D3m0r4l1z3d ::

Vodno hlajena Vega FE za slabih 1500 usd
https://www.techpowerup.com/235154/liqu...
ETN Wallet addr.: etnkGuvhDzR7Dh8us4e69VStubGbmQHrh5pe2fnpNDhEhX5
A1nCWrFBMK2NmkycgVN4sAwhvY8YyNNbF6KUSJyFZ99QKU8phCn
Cryptopia ref. link: https://www.cryptopia.co.nz/Register?referrer=Anymalus

Zgodovina sprememb…

meho7 ::

Brane22 ::

Par vprašanj:

- VEGA: torej v samem coreu ni veliko spremenjeno, le "uncore" je bogatejši, verjetno v skladu s tem, kar narekujeta tako HBM kot "multi-tasking" featureji ?

- virtual address support - what's the big deal ? _Večinoma_ se ta v modernih kernelih razlikuje za neko konstanto od fizićnega naslova. Kje je torej tak problem pač to prišteti tam kjer rabiš ?
Ja, TLBji in tabele omogočajo akrobacije, ampak te so večinoma pri nalaganju knjižnic, COW pageov itd, to pa ni ravno disciplina, ki bi jo rabil GPU, ravno tako kot ne neko fragmentacijo fizičnega RAM-a, torej...
On a journey of life I chose a psycho path...

meho7 ::

Senitel ::

Brane22 je izjavil:

- VEGA: torej v samem coreu ni veliko spremenjeno, le "uncore" je bogatejši, verjetno v skladu s tem, kar narekujeta tako HBM kot "multi-tasking" featureji ?

"multi-tasking" featureji?

Brane22 je izjavil:

- virtual address support - what's the big deal ? _Večinoma_ se ta v modernih kernelih razlikuje za neko konstanto od fizićnega naslova. Kje je torej tak problem pač to prišteti tam kjer rabiš ?
Ja, TLBji in tabele omogočajo akrobacije, ampak te so večinoma pri nalaganju knjižnic, COW pageov itd, to pa ni ravno disciplina, ki bi jo rabil GPU, ravno tako kot ne neko fragmentacijo fizičnega RAM-a, torej...

GPU memory oversubscription... Paging v sistemski ram.

Brane22 ::

Senitel je izjavil:


"multi-tasking" featureji?


Nisem toliko na tekočem s tem. Bilo je govora o prenovitvah, ki olajšujejo laufanje več kernelov hkrati, podobno kot to počne klasični CPU s programi.


GPU memory oversubscription... Paging v sistemski ram.


OK, so why not into physical RAM ? Domnevam, da gre za operacijo, ki mora laufati čimhitreje in brez zapletov.
Zakaj bi šla skozi MMU/TLB ?

Koneckoncev so vsaj na linuxu, relativno nova pridobitev 2GB pagei- da se ni treba zajebavat s 4/8K drobižem.

Če moraš skozi to, se je za vprašat koliko je to smiselno. GPU dela vse "na količino". Težko si mislim bistven scenarij, kjer bi mroal samo tu pa tam izpljuniti kak 4K page. CPUju se to lahko zgodi recimo v COW scenariju itd.
On a journey of life I chose a psycho path...

Senitel ::

Brane22 je izjavil:

Nisem toliko na tekočem s tem. Bilo je govora o prenovitvah, ki olajšujejo laufanje več kernelov hkrati, podobno kot to počne klasični CPU s programi.

GPU-ji že lep čas znajo poganjat več različnih kernelov sočasno. Edino originalna tesla (G8x, GT2xx) je bila omejena na en sočasen compute kernel (čeprav še vedno lahko poganja več kernelov: vertex/geometry/pixel shader sočasno).
Nisem pa zasledil kaj naj bi tukaj Vega prestavila naprej od Fury-a oziroma splošno od ostalih GCN iteracij?

Brane22 je izjavil:

OK, so why not into physical RAM ? Domnevam, da gre za operacijo, ki mora laufati čimhitreje in brez zapletov.
Zakaj bi šla skozi MMU/TLB ?

Koneckoncev so vsaj na linuxu, relativno nova pridobitev 2GB pagei- da se ni treba zajebavat s 4/8K drobižem.

Če moraš skozi to, se je za vprašat koliko je to smiselno. GPU dela vse "na količino". Težko si mislim bistven scenarij, kjer bi mroal samo tu pa tam izpljuniti kak 4K page. CPUju se to lahko zgodi recimo v COW scenariju itd.

Mislim oversubscription v sistemski ram, ko lokalnega rama na grafi zmanjka (in bolj fina kontrola nad migracijo, kot sem že pisal v prejšnjih postih). Je pa še več pointov, ki tukaj pridejo v poštev:
- isti pointerji, ki so vidni v gpu threadih so vidni tudi v cpu threadih
- grafičen mode / compute mode

FireSnake ::

Poglej in se nasmej: vicmaher.si

D3m0r4l1z3d ::

They Bulldozered it.
ETN Wallet addr.: etnkGuvhDzR7Dh8us4e69VStubGbmQHrh5pe2fnpNDhEhX5
A1nCWrFBMK2NmkycgVN4sAwhvY8YyNNbF6KUSJyFZ99QKU8phCn
Cryptopia ref. link: https://www.cryptopia.co.nz/Register?referrer=Anymalus

meho7 ::

Manj kot 2 tedna do uradnega izida pa se vedno skrivajo fps counter :|

DarwiN ::

Torej ~1080 performance za ceno GTX1070 in jasno poraba preko plafona. Tako nekak lahk najbrž pričakujemo.
You don't see faith healers working in hospitals
for the same reason you don't see psychics winning the lottery!

VANR ::

Jaz upam, da bo najmanjša Vega nekje 300€, pa performance v rangu GTX 1070. Če jim to uspe, pol kupim, drugače grem pa k zelenem taboru.

Brane22 ::

Že zdavnaj je bilo rečeno, da Vega še ne bo revolucija, ampak da prava stvar pride za njo.

Tako da, ne štekam vsega tega hiperventiliranja.

Cool bo na Raven Ridgeu, izven tega pa verejtno za določene segmente in to je to.

KO pa pride RR, bo tudi njen naslednik blizu.
On a journey of life I chose a psycho path...

Dr_M ::

Vega naj bi bila revolucija, ampak folk pocasi dojema, da je vega nateg. Mogoce celo najvecji AMDjev nateg. 2 leti futrajo hype, zdej bodo pa izdal eno sorry ass pecico za 2x ceno gtx1080 s podobno zmogljivostjo in dvojno porabo. AMD is boned.
Se dobro, da slepci zamizijo na obe ocesi pri njihovih zuzelkah, ups, procesorjih in sem ter tja kaksnega kupijo.
The reason why most of society hates conservatives and
loves liberals is because conservatives hurt you with
the truth and liberals comfort you with lies.

Zgodovina sprememb…

  • predlagalo izbris: FireSnake ()
««
49 / 138
»»