» »

AMD ZEN - nova X86 Jedra

AMD ZEN - nova X86 Jedra

Temo vidijo: vsi
««
184 / 611
»»

Predator X ::

Edit:
zgoraj sem mislil ns in ne ms :)).
-----------------------------------------

Es sample "naj bi bil" lockan na 1:1 effektivna DDR4.

Zgodovina sprememb…

mojster_joni ::

Brane22 je izjavil:

Nisem ziher. Čim imaš stvar na ločeni frekvenci, potrebuješ sinhronizacijo podatkov, ki prestopajo to mejo, to pa stane vsaj kak takt.

Brez skrbi, niso tega enostavno spregledali ker so butasti ali kaj podobnega. Če se bo našla kaka rešitev za to, ne bo kar tako simpl, sploh pa ne vidim zakaj bi jo iskali. Pač počiš gor ustrezno hiter ram in imaš win-win.

Ja verjetno zaradi tega zeni nimajo tega na ločeni frekvenci, zen2 bi pa znal imet možnost x2 (se pravi da je data fabric frekvenca x2 pomnilniške) kar ne bi smelo bit preveč komplicirano za sinhronizirat niti ne zahteva kakih nedosegljivih frekvenc (trenutno zeni delajo nekje do 4 GHz, se pravi bi pri zen2 če imaš ddr4 4000 to pomenilo da je frekvenca pomnilnika 2 GHz, se pravi bi data fabric moral delat na 4 GHz, kar ni neka znanstvena fantastika, še posebej če upoštevamo da večina ljudi ne bo imela ddr4 4000 ampak kvečjemu 3200 (ali pa še manj) kar pomeni še bolj znosne frekvence)... za ogromne strežniške čipe pa lahko uporabijo obstoječi x1 množilnik če je data fabric prevelik da bi se ga dalo zanesljivo spravit na x2. Če bi pa hoteli imet recimo x1.1 in tako naprej pa rata sinhronizacija bolj komplicirana in se pomoje ne splača.. no sicer bodo pa pri amdju že vedli kako je treba :)

mojster_joni ::

Pa ne mislim da so to spustili ker bi bili neumni, čip je moral biti končan do nekega roka in je moral bit tak, da se ga dejansko lahko proizvaja brez da jih je večina za v smeti. In to jim je ratalo. Ubistvu je ta štos s ccxi zelo pametna poteza s strani amdja.. imajo en majhen kos silicija, ki se ga masovno proizvaja potem pa se lahko te ccxe dokaj poljubno pakira odvisno od potreb, hkrati pa ker so majhni ni problemov z izkoristkom. V nasledniku bojo pa reč še malo izpilil pa bo.. saj ni nekih hudih pomanjkljivosti v arhitekturi :)

Predator X ::

Latency bo še zmeraj večja.

mojster_joni ::

Latency česa v primerjavi s čem?

Predator X ::

mojster_joni je izjavil:

Latency česa v primerjavi s čem?


avg core latency.
Jedro 0 = CCX0
Težko, boš dosegel enak učinek z 2x L3 cache. V tem primeru ti govoriš sedaj, da bi AMD lahko dosegel 40ns (Jedro 0 - CCX 0) in 80ns (Jedro 0 - CCX1).

Zdej pcper je napisal takole (če se dobro spomnim), da pri dolkočeni frekvenci rama CCX naredi 100ns+ = 140ns.
Kar ti postavi vprašanje? Bi imel AMD z 16MB samo 40ns avg core latency?Nope.




vs


Prej 80ns seprav DF naredi 60 ns.

Seprav 2133MHz = 60ns
4233MHz = 30ns or 1:1 DDR4 (effective speed)

40+30+40ns = 110ns. To samo številke in matematika realnost je drugačna.

Predator X ::

But there are some other important differences standing out here. Pings within the same physical core come out to 26 ns, and pings to adjacent physical cores are in the 42 ns range (lower than Intel, which is good), but that is not the whole story. Ryzen subdivides by what is called a "Core Complex", or CCX for short. Each CCX contains four physical Zen cores and they communicate through what AMD calls Infinity Fabric. That piece of information should click with the above chart, as it appears hopping across CCX's costs another 100 ns of latency, bringing the total to 142 ns for those cases.


Čisti bullshit! Kaj zdej predvidevata, da bi imal Ryzen avg core latency 40ns preko 16Mb of L3? Taka mojstra....
No dobr, nism expert pa tud nikol nebom...

Ampak, če bi ryzen DF imel 100ns DF = bi pri 3600MHz imel okol 100ns
1066/1800 * 100 = 60ns
40+60ns = 100ns
Ampak tole je neumnost!Totalna neumnost;((.

1066/1800 = 35ns
Which means = 40+35+40

~115ns how did you know? I am just a stupid man who learns something new every f*cking day.
https://www.pcper.com/reviews/Processor...

Predator X ::

Predpostavka na 80ns 16MB L3. Verjetno manj, tud frekvenco bi mogl fixat etc.

Kar pomen,daje edina rešitev AMDja da vrže 6C na 8MB L3 cache za gaming. Čist dovolj. Za vse ostalo pusti DF 1:2 DDr4

razumeš zdej? ;)

Zgodovina sprememb…

mojster_joni ::

Huh? Majke mi da jst govorim o bananah ti pa o hruškah.

Jst se zavedam da je latenca za komunikacijo med jedri v različnih ccxih višja od latence za komunikacije znotraj ccxa. To je pač zanalašč tako narejeno da lahko AMD poceni dela majhne ccxe ki jih potem povezuje v poljubno (no do neke meje) velike čipe kot bi zlagu lego kocke. Tko lahko dobimo poceni čipe z veliko jedri. Trenutno je frekvenca infinity fabrica enaka frekvenci rama se pravi če daš not ddr4 3200 dela zadeva na 1600 MHz. Tko je narejeno ker se s tem poenostavi vse skupi (je že Brane povedu da ko grejo podatki z dela čipa na frekvenci x na del s frekvenco y maš komplikacije). Jst bi pa rad vidu da v naslednji verziji zena omogočijo še 2:1 razmerje med frekvenco infinity fabrica in pomnilnika. Ker je x2 taka lepa številka zaradi tega ne bi smelo bit prehudih komplikacij, take frekvence tud ne zgledajo previsoke za večino čipov (itak pa lahko obdržijo še 1:1 razmerje za primere, kjer se to več ne izide). S tem dobiš hitrejšo komunikacijo med ccxi (še vedno ne enako hitro kot znotraj samega ccxa), rata pa čip malo bolj kompliciran in mogoče povečaš porabo. Za zen2 to pomoje ne bi smel bit prehud zalogaj.

In AMD bo lahko še vedno lepil skupaj ogromno ccxov in proizvajal poceni čipe z veliko jedri in to pomankljivostjo, da je dostop do reči iz drugih ccxov počasnejši. Intel pa lahko še naprej dela ogromne drage čipe kjer te pomankljivosti sicer ni, ampak kaj mi to koristi če stane potem tak čip 5000 eur rahlo počasnejši AMD pa 1000 eur.

Zen3 bi pa mogoče že lahko imel 8 jeder na ccx, če bo proizvodnja čipov dovolj napredovala (kar sicer ne kaže ravno najbolje).

Predator X ::

Ne ti samo noces razumet. Latenca df ostane in tud omejitev gbps.

Ryzen 2 extreme
Df 4500MHz:4500MHzz ddr4
Ce je df latenca 1033 Mhz 60ns bo pri 4500 okol 13.7ns.
144gb/s

In cena vsega tega?

Zgodovina sprememb…

Brane22 ::

So fucking what ?

Latenca L3 ni tako zelo pomembna. Kdaj pa pride v poštev ? 97+ dostopov pade v L1 in 97% tistih ki zgrešijo L1, pade v L2. L3 zadane torej 3% od 3%, ko govorimo o insstrukcijah. So what ? Big deal, če je takrat latenca 40 ali 140 ns.

L3 je kul, da ima zadostno prepustnost, da pač ni treba vsega držati v L2 in da pustiš stvarem da se prelivajo po potrebi v L3 in nazaj. Se pravi, če delaš multithreading na nekem datasetu, si jedra lahko efektivno podajajo podatke prek L3 in ni treba iz L2 v RAM in nazaj. To je velik plus. Tudi če je treba kaj začasno vreči ven iz L2, je fajn, če s tem ni treba matrat memory controllerjev ampak ti lahko filajo noove podatke.

Predator X ::

Brane22 je izjavil:

So fucking what ?

Latenca L3 ni tako zelo pomembna. Kdaj pa pride v poštev ? 97+ dostopov pade v L1 in 97% tistih ki zgrešijo L1, pade v L2. L3 zadane torej 3% od 3%, ko govorimo o insstrukcijah. So what ? Big deal, če je takrat latenca 40 ali 140 ns.

L3 je kul, da ima zadostno prepustnost, da pač ni treba vsega držati v L2 in da pustiš stvarem da se prelivajo po potrebi v L3 in nazaj. Se pravi, če delaš multithreading na nekem datasetu, si jedra lahko efektivno podajajo podatke prek L3 in ni treba iz L2 v RAM in nazaj. To je velik plus. Tudi če je treba kaj začasno vreči ven iz L2, je fajn, če s tem ni treba matrat memory controllerjev ampak ti lahko filajo noove podatke.


Očitno je kr pomembna, za PC... "trenutno".

Brane22 ::

Meh. Ti si iz tega naredu katastrofo.

Predator X ::

Brane22 je izjavil:

Meh. Ti si iz tega naredu katastrofo.


Zakaj že?

Jst sam pravm, da se nesplača naredit extra fast DF za nižjo latenco. Ker je potem tko rekoč bolj, da manj l3 cacha in več jeder.

Zgodovina sprememb…

  • predlagalo izbris: FireSnake ()

Predator X ::

FireSnake ::

Predator X je izjavil:

Ker je potem tko rekoč bolj, da manj l3 cacha in več jeder.


Lahko rečem, da kar dosti vem o arhitekturi procesorjev.
In lahko ti rečem, da te je lahko sram, da si kaj takega sploh napisal.

Nivo neblouz tukaj je že tako visok, da se nam bo počasi ta tema priskutila.

So že teme, ki se jih izigibam .... upam, da ne bo ta naslednja.

Naredi nam uslugo in nehaj nabijat, ker pojma nimaš o čem blebečeš.
Poglej in se nasmej: vicmaher.si

Predator X ::

FireSnake je izjavil:

Predator X je izjavil:

Ker je potem tko rekoč bolj, da manj l3 cacha in več jeder.


Lahko rečem, da kar dosti vem o arhitekturi procesorjev.
In lahko ti rečem, da te je lahko sram, da si kaj takega sploh napisal.

Nivo neblouz tukaj je že tako visok, da se nam bo počasi ta tema priskutila.

So že teme, ki se jih izigibam .... upam, da ne bo ta naslednja.

Naredi nam uslugo in nehaj nabijat, ker pojma nimaš o čem blebečeš.


Sure.
Ravnoto je naredil intel, kar sem sedaj jaz rekel :)) Intel, nimaš pojma!:)):)):))
10C 25Mb cache
https://ark.intel.com/products/94456/In...
vs
https://ark.intel.com/products/123613/I...
10C 13.5MB cache

nimam pojma ... tale slotech je poln enih samih egoistov, ki vidi in sliši samo sebe.

Ryzen je čist kull in 2x8 MB cache je lahko včasih tud velik privilegij.
Več cache ima svoje težave in vidm smo, da bulldozerju ni prav nič pomagal. Kolk pa je blo realno razlike med enim athlonom in FX 4350 (8MBL3). FX 4350 je pokuril 2x več.

PS4
190 cyclov

samo 26cyclov L2 (2MB)
in mal več kot 200cyclov do Main rama
http://www.dualshockers.com/naughty-dog...

Ryzen octa channel pri 3200MHZ bi moral imet 200GB/s z quad channelom pa 100GB/s.

zdej pa hitr INTELu povedat, da nimajo pojma...

Zgodovina sprememb…

  • predlagalo izbris: FireSnake ()

gddr85 ::

afair, glavni bottleneck je počasen df, pa maš lahko magar 8mb cacha, če se ta deli na pol med ccx-i, in ko dela več threadov za en workload čez dva ccxa, je ta df pač bottleneck..

Predator X ::

gddr85 je izjavil:

afair, glavni bottleneck je počasen df, pa maš lahko magar 8mb cacha, če se ta deli na pol med ccx-i, in ko dela več threadov za en workload čez dva ccxa, je ta df pač bottleneck..


Jap,...
Trenutno bi se bolj splačal imet 1xCCX 8MBL3 in 6 jeder sploh za špile.

energija ::

ERROR

Zgodovina sprememb…

  • spremenilo: energija ()

gddr85 ::

Predator X je izjavil:

gddr85 je izjavil:

afair, glavni bottleneck je počasen df, pa maš lahko magar 8mb cacha, če se ta deli na pol med ccx-i, in ko dela več threadov za en workload čez dva ccxa, je ta df pač bottleneck..


Jap,...
Trenutno bi se bolj splačal imet 1xCCX 8MBL3 in 6 jeder sploh za špile.

najbolje, da to sporočiš amdju, mogoče te pa uslišijo :))

Predator X ::

gddr85 je izjavil:

Predator X je izjavil:

gddr85 je izjavil:

afair, glavni bottleneck je počasen df, pa maš lahko magar 8mb cacha, če se ta deli na pol med ccx-i, in ko dela več threadov za en workload čez dva ccxa, je ta df pač bottleneck..


Jap,...
Trenutno bi se bolj splačal imet 1xCCX 8MBL3 in 6 jeder sploh za špile.

najbolje, da to sporočiš amdju, mogoče te pa uslišijo :))


:)):)):))

D3m ::

|HP EliteBook|R5 6650U|

mojster_joni ::

Ryzen ni primarno mišljen za igre, jih pa kljub vsem 'pomankljivostim' poganja zelo ok za dokaj nizko ceno.

Predator X ::

mojster_joni je izjavil:

Ryzen ni primarno mišljen za igre, jih pa kljub vsem 'pomankljivostim' poganja zelo ok za dokaj nizko ceno.


Al pa PC games niso za ryzena. Ja, škoda.

Kabylake ma nižjo latenco do l3 samo zaradi višjih clockov, če bi lockal vse na 3GHz je ryzen winner @ L3, medtem ko kaby zmaga na L2 ... L1 ==.

Zgodovina sprememb…

mojster_joni ::

heh, ryzen zmaga predvsem na ceni, kolk že stane računalnik z intelovim cpujem, 8 jedri in 16 nitimi in ecc ramom, kolk pa stane ryzen z 8c/16t in ecc ramom

Wrop ::

Latenca ni vse. Važna je tudi verjetnost zgrešitve. Če je verjetnost zgrešitve 2x manjša je lahko latenca 2x večja, pa si s povprečnim časom dostopa na istem.

Predator X ::

Mene odbija od ryzen trenutno 7nm , "trdijo" >5GHz.
Dobr zdje ko rabm bom 6C.

http://galaxstore.net/GALAX-HOF-DDR4-36...
Kako bi dobil tele za 140EUR?

Zgodovina sprememb…

D3m ::

Ryzen B2 stepping na poti.

https://twitter.com/CPCHardware/status/...

B2-step seems to focus on Uncore/SoC erratas (PCIe controllers, etc.)
|HP EliteBook|R5 6650U|

Zgodovina sprememb…

  • spremenil: D3m ()

hojnikb ::

lahk bi še IF lockal na 1:1 :)
#brezpodpisa

D3m ::

Kakor sem zasledil so to imeli vendar je bilo nestabilno.

Ali bo to za Zen+ ali pa B2 stepping pa ne vem.
|HP EliteBook|R5 6650U|

hojnikb ::

the sooner the better :D
#brezpodpisa

D3m ::

05:34PM EDT - Single socket pricing: 16-core at $750

05:34PM EDT - So there's your ThreadRipper pricing, probably

http://www.anandtech.com/show/11562/amd...
|HP EliteBook|R5 6650U|

Predator X ::

hojnikb je izjavil:

the sooner the better :D


Zdej,

14nm FF definitivno "zavira" ryzena. (noben ne more pridt na 4.5GHz - golden chip - vsi pa prilezejo na 3.8GHz)

D3m ::

??

Phenom II C3 stepping se je lepo navil za 200-300MHz več, kot C2.
|HP EliteBook|R5 6650U|

pegasus ::

Vse nad cca 2GHz se z energijskega stališča ne splača.

Predator X ::

D3m je izjavil:

??

Phenom II C3 stepping se je lepo navil za 200-300MHz več, kot C2.


Česa nerazumeš?

Wrop ::

pegasus je izjavil:

Vse nad cca 2GHz se z energijskega stališča ne splača.


Zakaj pa ravno nad 2 GHz in ne nad 2,5 GHz?

hojnikb ::

peak efficiency je v resnici odvisn od proizvodnega procesa in same arhitekture proca, ni 2ghz nek univerzaln odgovor.
#brezpodpisa

pegasus ::

Za leakage trenutne tehnologije je okrog 2ghz sweet spot. Z bolj drobnimi tranzistorji se bo leakage samo še povečal, zato bo morala frekvenca še dol.

Wrop ::

A se da nalimati kakšen graf, da vidimo ta sweet spot za tretnutno tehnologijo?

klinker ::

Wrop je izjavil:

A se da nalimati kakšen graf, da vidimo ta sweet spot za tretnutno tehnologijo?


Ne rabis grafa. Poglej si porabo cpujev iste serije z 2Ghz in 2,5Ghz+.

Predator X ::

pegasus je izjavil:

Za leakage trenutne tehnologije je okrog 2ghz sweet spot. Z bolj drobnimi tranzistorji se bo leakage samo še povečal, zato bo morala frekvenca še dol.


7nm kaže nasprotno.
IBM + Samsung joint za 7nm in 5nm.
Zgleda, da bo AMD imel šanso z Ryzen2 da prevzame krono :D

Zgodovina sprememb…

Wrop ::

Seveda rabim graf. Govorimo o energijski učinkovitosti. Če daš procesorju isto delo za delat, potem je delo pri večji frekvenci prej opravljeno. Količina porabljene energije za isto opravljeno delo pa ni odvisna samo od frekvence.

Predator X ::

Wrop je izjavil:

Seveda rabim graf. Govorimo o energijski učinkovitosti. Če daš procesorju isto delo za delat, potem je delo pri večji frekvenci prej opravljeno. Količina porabljene energije za isto opravljeno delo pa ni odvisna samo od frekvence.


Power


PPA

Wrop ::

Še vedno ne vidim nobenega grafa, ki bi kazal energijsko učinkovitost in sweet spot glede na frekvenco delovanja procesorja.

Na prvi sliki samo vidim moč različnih procesorjev pri poganjanju programa Prime95.
Na drugi sliki pa vidim neko primerjavo porabe, moči in velikosti med različnimi tehnologijami.

Še vedno čakam graf, kjer bo takoj razviden sweet spot energijske učinkovitosti glede na frekvenco (pri isti tehnologiji.

frudi ::

 Ryzen Voltage/Frequency

Ryzen Voltage/Frequency



Tule izgleda, da po ~2.1 GHz začne potrebna napetost linearno naraščati z željeno ciljno frekvenco. Od 2.1 do 3.3 GHz je nato relacija praktično povsem linearna.
1ACDoHVj3wn7N4EMpGVU4YGLR9HTfkNhTd... in case I've written something useful :)

Wrop ::

Razpon 1.2 GHz je precej širok, da bi lahko govorili o nekem sweet spotu, vsaj kar se tiče procesorja Ryzen.
Ni pa to še tisti graf, kjer bi se dalo videti energijsko učinkovitost glede na frekvenco. Tu je prikazana samo minimalna napetost glede na frekvenco.

clix ::

@Wrop
Max energetska učinkovitost procesorja je v bistvu pri relativno nizki frekvenci. Če predpostavljamo, da se hitrost (kot zmogljivost procesorja) linearno skalira z frekvenco, hkrati pa poraba narašča linearno v odvisnosti od frekvence in s kvadratno odvisnostjo od napetosti, je CPU najbolj učinkovit pri max frekvenci, ki jo lahko dosežemo pri minimalni napetosti, ki jo CPU prenese.

Če na podlagi zgornjega grafa predpostavimo, da je min. napetost ki jo ryzen prenese 700mV (se pravi da tudi pri 1GHz recimo zahteva vsaj 700mV) je max. učinkovit vse od min. frekvence do 2GHz. Pri višjih frekvencah učinkovitost pada.

Zgodovina sprememb…

  • spremenil: clix ()

Wrop ::

Imaš kje graf energetske učinkovitosti glede na frekvenco za dano končno delo?
««
184 / 611
»»