» »

Cluster kot delovna postaja

Cluster kot delovna postaja

The inquirer - Pri kalifornijskem podjetju Orion multisystems (khm, orion) so ustvarili delovno postajo z nič manj kot 96 procesorji Transmeta Efficeon, ki podpira do 192 GB dinamičnega pomnilnika in 9,6 TB diskovja, pri čemer je poraba pičlih 1500 W.

Za skromnejše je na voljo namizni sistem z 12 procesorji in podporo za 24 GB pomnilnika in 1 TB diska s skromno porabo 220W. Oba sistema sta namenjena "mletju številk" (za simulacije torej), poganja ju Linux, priložena je tudi podpora za paralelno računanje. Manjši sistem zmore 18 Gflops in bo stal ca. 10 tisoč USD, večji pa iz sebe iztisne kar 150 Gflops, a za 10 krat več cekinov.

Za primerjavo: zadnji na seznamu Top500 superračunalnikov je 184 procesorski IBM eServer pSeries 655 (1.5 GHz Power4+), ki zmore 624 Gflops. Za ceno tega pa raje ne vprašajte ...

44 komentarjev

Spc ::

Lepo to.
8-O

Gandalfar ::

kolk flopsov pa ima recimo en P4, amd64, dual opteron ..

Thomas ::

Tam, do ene 3. Tko, čez palec rečem.
Man muss immer generalisieren - Carl Jacobi

jurc ::

glede na tale pejdž po ene 5, samo to je zelo od-oka verjetno.

About the OctigaBay 12K ........
12 64-bit x-86 compatible AMD Opteron processors for 58 GFLOPS

http://www.amd.com/us-en/Processors/Com...

OwcA ::

Bo že kar 10, še posebaj če se malo bolj potrudiš.
Otroška radovednost - gonilo napredka.

Gandalfar ::

odlocte se :)


btw..


Computing devices exhibit an enormous range of performance levels in floating-point applications. Thus it makes sense to introduce larger units than the flops; the standard SI decimal prefixes are used for this purpose. For example, a cheap but modern desktop computer can make billions of floating point operations per second, so its performance is in the range of a few gigaflops (109 flops).

Today's most powerful supercomputers have speeds measured in teraflops (1012 flops). The current record holder is Earth Simulator, capable of 35 teraflops. The planned Blue Gene architecture may eventually reach speeds in excess of one petaflops (1015 flops). The most successful distributed computing projects are not far behind, with both GIMPS and SETI@home running virtual computers at some 14 teraflops (as of May 2004).

Pocket calculators are at the other end of the performance spectrum. Any response time below 0.1 second is experienced as 'instantaneous' by a human operator. Because it makes no sense to create a faster calculator, one may conclude that a pocket calculator performs at about 10 flops.

Of course, humans are even worse floating-point processors. If it takes a person a quarter of an hour to carry out a pencil-and-paper long division with 10 significant digits, that person would be calculating in the milliflops range.

vir

Thomas ::

Ne, ne 10 pa ni. Za dvoprocesorsko mašino že ne.

Žal.
Man muss immer generalisieren - Carl Jacobi

dr.J ::

Odvisno od testa. Z enim bo več, z drugim manj megaflopsov, seveda na istem procesorju. Za bahanje uporabijo največje, zato tovarniškim prospektom ne gre "iz prve" verjeti.

http://www.netlib.org/benchmark/

pa

http://www.spec.org

minmax ::

mislim da tile tipi ciljajo tudi na porabo elektrike... recimo mogoče bi bilo cenovno zanimivo zračunati pri letu neprekinjenega delovanja koliko bi en flops stal napram drugim mašinam itd..

elektrika in potem še hlajenje je pri superračunalnikih namreč lahko velik strošek

minmax ::

aja pa seveda cena vzdrževanja... zna bit zelo vabljivo

CaqKa ::

že že samo tem 220w jaz ne verjame.. 12 procesorjev še spraviš na 220w.. ampak zraven še 24 gb rama.. to pa ne gre več pomojem no. 1 tb diskovja pa itak da ne...

tigrr ::

Se tud men diski zdijo bolj pozresni, pa niso se izkaze.. En hitachi travelstar 60Gb disk ima sledeco porabo:
Startup (max. peak) 5.5 W
Seek (average) 2.6 W
Read (average) 2.5 W
Write (average) 2.5 W
Performance idle (average) 2.0 W
Active idle (average) 1.3 W
Low power idle (average) 0.85 W
(iz http://www.hitachigst.com/hdd/support/7...

Kar pomeni za 10 diskov oz. 1 TB diskovja cca 20 W porabe..

OwcA ::

Ne, ne 10 pa ni. Za dvoprocesorsko mašino že ne.

Sintetični testi pravijo, da zmore P4 3,2 GHz sveže iz trgovine med 6 in 7 GFLOP. En pošteno navite procesor, SMP ali multicore navaze se potemtakem lahko pribljiža 10.
Otroška radovednost - gonilo napredka.

Thomas ::

V treh milijardah ciklov naredi 10 milijard FPU operacij?

To pomeni 3 na cikel? So podatki 64 bitni? 80 GByteov na sekundo prometa?

Kwa merjo? Koko merjo? Kdo računa? Kdo štet ne zna?

Kdo ma dobr marketing?
Man muss immer generalisieren - Carl Jacobi

CCfly ::

Saj imaš več FPU enot v procesorju. Mislim da ima Athlon 64 3 enote, kar ti teoretično da 3 FPU operacije na cikel.

OwcA ::

Nisem rekel, da en 3 GHz procesor spravi iz sebe 10 GFLOP. Spravi pa jih bodisi zelo navit procesor ali SMP, oziroma multi-core rešitev. Poleg tega imaš lahko več FPU enot in vsa mogoča multimedijska pomagala (SSE), ki so namenjena ravno delu s floati.

Tu pravijo:
The K7 sports a fully-pipelined FPU that’s able to process three FP operations per cycle.

Pri čemer velja opozoriti, da je to članek o K7, sedaj imamo že Hammerje.

Kdo ne pozna ustroja sodobnih procesorjev?
Otroška radovednost - gonilo napredka.

Thomas ::

> Mislim da ima Athlon 64 3 enote, kar ti teoretično da 3 FPU operacije na cikel

Me ne boste prepričal! Pomeni, da je notranji promet večji od 50 GB na sekundo?

Težko! Vsaj hvalili se še niso s tem.
Man muss immer generalisieren - Carl Jacobi

OwcA ::

Me ne boste prepričal! Pomeni, da je notranji promet večji od 50 GB na sekundo?

Te bodo oni?
At 3.4GHz, Prescott has a maximum [L1] cache bandwidth of an impressive 108 GB per second.


Glede na to, da si ti edini, ki trenutno še ni podal nobenih pametnih podpor, bi bil morda čas, da jih, v kolikor tvoj dvom ni osnovan le na samovšečnosti.
Otroška radovednost - gonilo napredka.

CCfly ::

Thomas ::

Superscalarfragilisticexpialidouses!

108 GB prometa pomeni okrog 12 milijard prestavljenih flovtov. Ker float ima kakih 8 byteov podatkov, ane?

A to pomeni, če jih prestavi, da je naredil FPU operacijo?

I don't think so.

p.s.

Samovšečnost je moja takorekoč največja značajska odlika. Namreč, če še sebi nisem všeč, kako bom drugim?

Ti OwcA, nisi nič samovšečen?

Meni to že ni všeč, kako se obnašaš tukaj! Glavo in poštevanko v roke, ne pa citatologije!
Man muss immer generalisieren - Carl Jacobi

Thomas ::

Ne pa SAMO citirat!

Treba premislit z lastno glavo vse, meni pa 10 GF ne klapa. Sorči!
Man muss immer generalisieren - Carl Jacobi

OwcA ::

108 GB prometa pomeni okrog 12 milijard prestavljenih flovtov. Ker float ima kakih 8 byteov podatkov, ane?

Ne mešati hrušk in jabolk (in hkrati pozabljaš, da še po svoji oceni potrebuješ pol manj). 108 GB/s je največji teoretični notranji prenos. Tu ni govora o nobenih floatih ampak samo o arhitekturi procesorja in karakteristikah predpomnilnika.

Takisto imajo današnji procesorji več FPU enot, recimo 3. Tudi tu moja ocena stoji.

In potem so tu še bonbončki kot je SSE in paralelizem.

Kaj se tretira kot FPO pa mislim, da je tudi znano.
Otroška radovednost - gonilo napredka.

Thomas ::

OwcA, danes je tak dan, da se ti malo bluzi.

Pri tem se čutiš varnega, saj imaš varljiv občutek, da so za teboj CPU avtoritete. Saj so, ampak vse delajo v marketingu.

V resnici tukaj ni kaj dosti filozofirat. 10 milijard operacij (množi, deli, seštevaj ...) s števili s plavajočo vejico, od katerih ima vsako 8 (ali več) byteov, je iluzija za današnje procesorje.

Kakšen BUS pa bi pobiral rezultate iz procesorja v RAM? Največ 20 GB/sekundo pri nekaterih 4 way Opteronih.

V tistih 20 GB pa ni skrito 10 milijard rezultatov FPU.

-----------------

A še kdo misli da je?
Man muss immer generalisieren - Carl Jacobi

Thomas ::

Citat fakta:

HyperTransport offers many advantages over conventional solutions such as PCI. A single Opteron HyperTransport link offers a whopping 6.4GB/sec of data bandwidth, which is top of the scale in terms of current x86 system bus specifications. Compatibility is also high, and PCI and PCI-X can coexist on a HyperTransport system bus while taking advantage of its ample bandwidth.

Koji ti bre kurac!
Man muss immer generalisieren - Carl Jacobi

CCfly ::

Rekel je približno 10GFlops pri SMP mašinah, ki so po možnosti dobro navite.
Ne vem kaj ti superskalarnost ne ugaja ampak tako se izkorišča paralelnost pri procesorjih.
Imaš 3 FPU enote in npr. frekvenco 2GHz, pa pomnoži. Zdaj pa vzemi SMP sistem z dvema procesorjema.

Thomas ::

Jest pravim, da ne boš iz 2 way (celo 4 way) dobil 10 milijard 8 bytnih float rezultatov na sekundo, že zaradi omejenega dostopa do RAMa ne.

To je čisti marketing. Ki ga je treba vzeti z zrncem soli.
Man muss immer generalisieren - Carl Jacobi

OwcA ::

Citat fakta:

Očitno ne ločuješ med predpomnilnikom in pomnilnikom in potem se jaz trudim ter eksplicitno označujem kadar govorim o L1 predpomnilniku ... svinjam biserov!
Ali nisi ravno ti opozarjal proti brezglavemu citiranju? ;)

V resnici tukaj ni kaj dosti filozofirat. 10 milijard operacij (množi, deli, seštevaj ...) s števili s plavajočo vejico, od katerih ima vsako 8 (ali več) byteov, je iluzija za današnje procesorje.

Se strinjam, da ni.
Samo dejstva se tokrat ne pokrivajo s tvojo predstavo, povsem preprosto.
Od kod ti tudi ideja, da je za 10 gflops potrebno 10 miljard različnih števil?
Poleg tega ne upoštevaš dejstva, da je nekaj (pri današnjih procesorih s kopico razširitvenih registrov prravzaprav kar precej) podatkov lahko shranjenih v registirh in ne predpomnilniku, kar odstrani dodaten korak prebiranja in pisanja. Ki ga seveda ne opravi FPU, tako da imamo še vedno vse 3 operacije neizkoriščene. Ampak to so že podrobnosti, v primerjavi z ostalim.

Kakšen BUS pa bi pobiral rezultate iz procesorja v RAM? Največ 20 GB/sekundo pri nekaterih 4 way Opteronih.

Zakaj bi moral pa vse pobrati ven?
Ne zgovarjaj se. Po tvoji logiki tudi ne morejo obstajati superračunalniki z zmoglivostjo petaflops. Pomnilniškega sistema, ki bi to dohajal (vsaj skladnega s tvojim pogledom na svet) takisto ni.
Otroška radovednost - gonilo napredka.

CCfly ::

Kakšen BUS pa bi pobiral rezultate iz procesorja v RAM? Največ 20 GB/sekundo pri nekaterih 4 way Opteronih.

Pa saj ni potrebno prenesti vsega iz pomnilnika v registre.

Thomas ::

Cut the poetry, cut the crap!

Noben PC ti ne da 10 GigaFlopov. To priznaš, zdej ti gre samo še za face washing.

Ali pa res mislita, da tak PC obstaja?
Man muss immer generalisieren - Carl Jacobi

Brane2 ::

Superskalarnost modernim strojem omogoča več ukazov po ciklu- tudi če pozabimo na trenutek SSE itd.
Moderni CPUji imajo orodja za izvedbo kar nekaj operacij po ciklu (recimo dve celoštevilčni/logični + dve FPU + mogoče kako izračunavanje novega naslova naslednje instrukcije).

V praksi pa verjetno redkokdaj trajno izvajajo več kot dve na cikel v povprečju, ali celo manj. Da se sicer napisati majhno optimizirano rutino za neko opravilo, vendar zadeva zahteve že urarsko natančnost in precej glavobolov pri predvidevanju kritičnih zunanjih dogodkov. Pri veliki večini kode prepusščamo razsojo o tem kaj je najboljšecompilerju, ta pa naših strojev ne pozna v podrobnosti, tako kot ga lahko poznamo določeni ljudje. Tudi ukazi sami dostikrat niso neodvisno med seboj ali recimo potrebujejo vmesne rezultate, ki niso vedno na razpolago itd in vse to ubija dosegljivo realno hitrost.

Reicmo tisti Thomasov šahovski problem se mi zdi optimalen za take optimizacije. Cela tabela, vse figure in vsi spremni podatki pašejo lepo v procesorski pipeline (EDIT: v bazen zajetih instrukcij) , v L1, L2 cacheju in RAMu poa držimo recimo spremne ali že zgenerirane vmesne rezultate. Program, ki večino časa vrti cifre po registrih znottraj majhne zanke in sem tertja zahteva kaj od zunanjega sveta, pa še to skoraj vedno dobi iz cachea, bi lahko računal na recimo 6000 MIPS ali celo več od navadnega P4. Točne cifre ne vem, ker teh strojev ne poznam v detajle.

KOt rečeno, tu še nismo upoštevali SSE enot itd. Tu je govora le o "vanilla" ukazih...
On the journey of life, I chose the psycho path.

Thomas ::

> Zakaj bi moral pa vse pobrati ven?

Zato, da je test merodajen. Ni mi dovolj da se reče, da ena magija ki je ne morem videti, niti ne morem videti njenih rezultatov, v mlinčku poteka. Ne kupim!


> Ne zgovarjaj se.

Ti se ne zgovarjaj!

> Po tvoji logiki tudi ne morejo obstajati superračunalniki z zmoglivostjo petaflops. Pomnilniškega sistema, ki bi to dohajal (vsaj skladnega s tvojim pogledom na svet) takisto ni.

Tudi petaflops superračunalnikov ni! Najhujši ima 0,035 petaflopa. FYI.




V prihodnosti bo seveda drugače, ampak zdaj je pa tako! Če ne veš tega, se raje (z opravičilom) poberi iz teme ven!
Man muss immer generalisieren - Carl Jacobi

dr.J ::

Nekaj o FLOPSih:
http://www.aceshardware.com/read.jsp?id...

" As flops is small enough to fit within the L1-cache, results depend strictly on the CPU itself, and not on the memory subsystem."

OwcA ::

Noben PC ti ne da 10 GigaFlopov. To priznaš, zdej ti gre samo še za face washing.

Ali pa res mislita, da tak PC obstaja?

Mislim, da obstaja PC, ki zmore 10 glpos, kajti kot smo videli so vsi pogji več kot izpolnjeni. Vprašanje je, če obstaja kak smiselen program (ne sintetičen test), ki bi to izkoriščal, tega ne vem.

Zato, da je test merodajen. Ni mi dovolj da se reče, da ena magija ki je ne morem videti, niti ne morem videti njenih rezultatov, v mlinčku poteka. Ne kupim!

Potem tudi "ne kupi" 0,035 petaflop.

Tudi petaflops superračunalnikov ni! Najhujši ima 0,035 petaflopa. FYI.

Moja napaka, prepovršno sem prebral Gandalfarjevo povezavo. Ampak dokler ti postavljaš standerd za število napak, po katerih se velja pobrati iz debate, se še nekaj časa ne gre nadejati mojega odhoda.
Še vedno nisi odgovoril na osnovni pomislek. Ali trdiš, da ima Earth-Simulator pomnilniški sistem zmožen prenosov nekaj TB/s in če ja, v čem se to tako razlikuje od superskalarnosti, da je eno marketing, drugo pa "fakt".
Otroška radovednost - gonilo napredka.

CCfly ::

Kakor vidim se za meritve uporabljata Linpack in Specfp.

Thomas ::

Earth Simulator je KVEČJEMU 35 Tera. Ti si govoril pa o tem, kako jest "ne priznavam 1000 Tera flopnih računalnikov".

Potem pa še mutiš! OwcA, OwcA ...

Verjamem pa, da če bi ti mislil z lastno glavo, bi ravno tako prišel do zaključka, da tiste gromozanske milijarde operacij (log, exp, sqrt ...) na sekundo, so čista fama za vsak PC.

Čista fama.
Man muss immer generalisieren - Carl Jacobi

Thomas ::

Man muss immer generalisieren - Carl Jacobi

OwcA ::

Za tisto napako sem se že spokoril. Ampak kako lahko priznavaš 35 tera, če ga pomnilniški sistem ne dohaja?

Poleg tega se pri svoji prvotni oceni (3 gflop) tudi sam nisi obremenjeval z preostalimi komponentami, kar je lepo razvidno iz enačenja ciklov in operacij.
Otroška radovednost - gonilo napredka.

Thomas ::

> Za tisto napako sem se že spokoril.

Mau se si ja. No, še vedno si uporen!

> Ampak kako lahko priznavaš 35 tera, če ga pomnilniški sistem ne dohaja?

The Earth Simulator uses new technology, however, which is capable of transmitting 12.3 gigabytes/second in two directions. That compares to the internal bandwidth of high-end U.S. machines said to be in the range of just 2.4 gigabytes/second.


No, to je že nekaj, ane? Dobrih 5000 procesorjev pa tudi. No skupaj terajo 60+ terabyteov obojestransko ali 120+ TB na sekundo. To bi bilo ravno okoli 30 ali 40 Tera floatov na sekundo, ki jih specijalni vektorski procesorji zagotovo popedenajo.

> Poleg tega se pri svoji prvotni oceni (3 gflop) tudi sam nisi obremenjeval z preostalimi komponentami, kar je lepo razvidno iz enačenja ciklov in operacij.

No, rekel sem čez palec in pri 2 way PCu naredil manj kot 10% napake.

8-)
Man muss immer generalisieren - Carl Jacobi

OwcA ::

No, to je že nekaj, ane? Dobrih 5000 procesorjev pa tudi. No skupaj terajo 60+ terabyteov obojestransko ali 120+ TB na sekundo. To bi bilo ravno okoli 30 ali 40 Tera floatov na sekundo, ki jih specijalni vektorski procesorji zagotovo popedenajo.

Pravzaprav ne.
Z 12 GB/s so povezani samo procesorski nodi, ki jih je 640. To nekako podre tvoj ličen računček.
Če imaš takšno zaupanje v vektorske procesorje, čemu potem ne upoštevaš tudi rešitev kot je SSE?

No, rekel sem čez palec in pri 2 way PCu naredil manj kot 10% napake.

In kako si prišel do te številke?
V primerjavi z vsemi ostalimi ocenami v tej temi bi jaz temu pridal (vsaj še) eno 0.
Otroška radovednost - gonilo napredka.

Thomas ::

Link.

OwcA, lahkonoč.
Man muss immer generalisieren - Carl Jacobi

CCfly ::

Zakaj ne gresta raje pognat Linpacka, da vidita koliko Gflops bosta dobila na domačem računalniku. Mislim da bo odgovor bošlji kot obkladanje z bodicami.

Gandalfar ::

hmm.. zgleda da ni to kr tko simpl. Ne mors sam podownloadat enga binarya oz. sourca pa zadevo pognat. Si bo treba mal casa vzet, da ta fortran v zivljenje spravim.

dr.J ::

Danes je fino, ker dobiš odličen fortran 95 compliant compiler za Linux zastonj.
http://www.intel.com/software/products/...
podprta verzija je 8.0.046 patch level 050.1

potem imaš še trial verzije, ki delajo 15 - 30 dni

http://www.pgroup.com
http://www.absoft.com
http://www.lahey.com
http://www.pathscale.com
http://h18009.www1.hp.com/fortran/
http://www.nag.co.uk/nagware/NQ.asp

g95 je še v debelih povojih.

OwcA ::

OwcA, lahkonoč.

Dobro jutro.

Moj citat je iz uradne strani, kjer "morda" celo vedo bolje od tebe. Ko bolje gledam se mi celo zdi, da imajo vsi nodi skupaj na razpolago tistih 12,3 GB/s. Kar po tvoje naj ne bi bilo zadosti. Torej je Top500 irelevanten ali samo tvoji pomisleki?
Otroška radovednost - gonilo napredka.


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

konfiguracija 4930K

Oddelek: Kaj kupiti
111636 (1386) Janac
»

Ontario prinaša visoko zmogljivost ob majhni porabi

Oddelek: Novice / Procesorji
113781 (2932) Pyr0Beast
»

Grafična za GPGPU

Oddelek: Kaj kupiti
193590 (3084) morbo
»

Nove slike PPU-ja

Oddelek: Novice / Grafične kartice
364282 (2871) jest10
»

Cluster kot delovna postaja

Oddelek: Novice / Procesorji
442711 (2711) OwcA

Več podobnih tem