» »

Gradnja/sestava diskovnega polja

Gradnja/sestava diskovnega polja

1
2
3 4

levaky ::

Jaz rabim nek HBA, ki ima SAS multilane SFF-8087 konektor in podpira uporabo SAS expanderja.

lp, Matej

Brane2 ::

V čem je taka čar SAS-a pred SATA v teh aplikacijah ?
On the journey of life, I chose the psycho path.

Pyr0Beast ::

Še to; Zna SMART brati iz SAS/Sata diskov v Raid5/6 polju ?
Some nanoparticles are more equal than others

Good work: Any notion of sanity and critical thought is off-topic in this place

Brane2 ::

naj bi. Smartctl mi potegne dol osnovne podatke, a jaz mam smart disablan.
On the journey of life, I chose the psycho path.

krho ::

@Brane2: Intel SASUC8I, je v tujini cca 130EUR, zadeva pa podpira tudi HPjev SAS expander (mora biti vsaj revizije 2.0.2). Moraš pa prej flashat s LSIjevim IT firmwarom.
si.Mail odprto-kodni odjemalec elektronske pošte. - http://www.simail.si
Uredite si svojo zbirko filmov, serij in iger - http://xcollect.sf.net

Brane2 ::

Že, ampak par stane kar nekaj.

Kot sem vidu, ti tisti SAS expander zasede še en PCIe slot, čeprav ga ne uporablja.
On the journey of life, I chose the psycho path.

levaky ::

Brane: Če to sprašuješ za moj primer, je fora v temu, da imam v ohišju 20 hot-swap disk bay-ov, ki so vezani oz. imajo zadaj SAS/SATA backplane, ki imajo multilane SFF-8087 konektorje. Iz njih grejo kabli na Chembro SAS expander in iz njega pol naprej en SFF-8087 kabl na kontroler. Iz tega razloga rabim HBA z SFF-8087 izhodom.

krho: kje si dobil podatek, katere expanderje podpira Intel SASUC8I? Ali morda veš, če podpira Chembro-tove expanderje?

Matej

Brane2: to je sicer res, ampak na expander lahko priklopiš 24 diskov...

Matej

Zgodovina sprememb…

  • spremenil: levaky ()

krho ::

[H]ard forum al kaj je že. Samo tam je tema o tem na katere kontrolerje lahko priklopiš HPjev SAS expander. Je pa tistle Intel brez predpomnilnika in brez baterije, sam ne vem, če bi za HW radi jemal brez.
si.Mail odprto-kodni odjemalec elektronske pošte. - http://www.simail.si
Uredite si svojo zbirko filmov, serij in iger - http://xcollect.sf.net

Pyr0Beast ::

Ne vem če ni bolje keš od teh 'expanderjev', segedina od SAS-a in podobnih zadev spraviti za nabavo novih, večjih diskov za čez par let, ali pa že zdaj povečaš array za 3 dodatne diske.

Plata ima že privzeto 8 konektorjev. Dodaš še 2 4xSATA kartici za 60EUR in imaš še dodatnih 8 diskov (če jih sploh rabiš)

Če prav vidim ste dali keša za kontrolerje dobrih 600EUR kar pomeni vsaj dodatnih ~7 diskov.

Ali bi se bolj splačal močnejši CPU za boljši SW raid namesto HW rešitve ?
Some nanoparticles are more equal than others

Good work: Any notion of sanity and critical thought is off-topic in this place

Zgodovina sprememb…

levaky ::

Sej ravno o tem razmišljam. Ena opcija, ki se mi zdi dokaj OK, je tudi nakup 2x Intel SASUC8I, ki ima vsak po 2x SFF-8087 izhod, kar zadošča za 4 backplane, petega pa prklopim direktno na plato preko SFF-8087-4xSATA kabla.

Res je, kontrolerj + expander nista bila poceni, ampak zdaj sta kuplena in jih ne moremo več vrniti. No, denar od kontrolerja nam bodo vrnili, s čimer lahko kupim 2x Intel SASUC8I kontrolerja pa imam zadevo pokrito. Expander pa prodamo in kupimo diske:)

Se mi pa zdi, da bi moral biti procesor dovolj dober za furat RAID5, saj proc tako ne počne drugega kot računa XOR pariteto. Je pa v serverju trenutno Intel i3 dual core 3,06GHz.

No, bom se spravil ASAP sestavit kišto in da vidim performance...

Matej

Pyr0Beast ::

Probaj vrnit expander v isto trgovino, pa od njih kupi diske. Za ceno poštnine prihraniš pri 20% nižji ceni pri prodaji.

i3 DC z 3GHz je verjetno vrh glavve

Ne vem ali je sam SW dovolj sposoben delo deliti na oba jedra, potem bi profitiral, če jih je več.



Ne vem ali IRQ-ji še obstajajo pri teh platah, ampak zelo bi bilo dobro, če bi določil kontrolerju lastnega.
Some nanoparticles are more equal than others

Good work: Any notion of sanity and critical thought is off-topic in this place

Brane2 ::

AFAIK novi kerneli izračunavajo pariteto v več threadih, a to ne bi smel biti problem, ker gre itak za simple XOR, ki se izvaja pri tanovih CPUjih v SSE enotah...
On the journey of life, I chose the psycho path.

Brane2 ::

Jaz dosegam povsem solidne hitrosti na prastarem 2.6 GHZ PHenomu, ki poleg tega dela pd CnQ in je večino časa na 800MHz...
On the journey of life, I chose the psycho path.

levaky ::

Evo, sem uspel zagnati mašino in sestaviti SW raid5...

bonnie++ je na testu 8GB fajla javil naslednje rezultate:
- Seq write: 112MB/s (CPU: 13%)
- Seq rewrite: 68MB/s (CPU: 5%)
- Per Character write: 880kB/s (CPU: 98%)
- Seq read: 279MB/a (CPU: 9%)
- Per Character read: 6400kB/s (CPU: 92%)
- Random seeks: 425/s (CPU: 8%)

hdparm:
root@fatlady:~# hdparm -tT /dev/md1
/dev/md1:
Timing cached reads: 10990 MB in 2.00 seconds = 5498.35 MB/sec
Timing buffered disk reads: 662 MB in 3.00 seconds = 220.55 MB/sec

dd:
root@fatlady:~# dd if=/dev/zero of=/mnt/vg0/blabjlatest bs=1M count=10000
10000+0 records in
10000+0 records out
10485760000 bytes (10 GB) copied, 85.9884 s, 122 MB/s

root@fatlady:~# dd if=/dev/zero of=/mnt/vg0/123 bs=512k count=10000
10000+0 records in
10000+0 records out
5242880000 bytes (5.2 GB) copied, 39.5683 s, 133 MB/s

Ali kdo ve za kakšne teste, kjer bi bili scenariji bolj realni? Recimo simulacija web strežnika ali pa database strežnika?

lp, Matej

Brane2 ::

Povej kaj več. kakšen chunksize si uporabil pri kreaciji polja recimo ?

A si poravnal particije na 4k meje ?

Kateri fs uporabljaš in kako si ga kreiral ?

A ti hitrost varira kaj dosti glede na hitrost proca ? ( Če imaš pač vklopljeno šparanje štroma )
On the journey of life, I chose the psycho path.

levaky ::

Ok, pa pojdimo po vrsti:)

Z fdiskom, ki sem ga pognal z parametri fdisk -H 224 -S 56(če me spomin ne vara). Z pritiskom tipke 'c' ugasnil DOS mode in z tipko 'u' nastavil, da je namesto unitov kazalo sektorje. Začetek particije sem nastavil na 2048, konec na 125831167 (toj cca 60GB). Kolikor sem bral po internetu, naj bi bilo to OK in naj bi ta postopek nastavil particije na 4k meje.

Raid sem nastavil brez kakšnih posebnih parametrov, le chunk size sem nastavil na 265kb. Je to OK, ali je preveč/premalo?

Po 10 minutah je bil RAID postavljen in sem na njem postavil ext3 fs(default opcije).

Proc imam pa nastavljen, da ves čas lavfa na 100% oziroma nimam nobenega posebnega programa, ki bi mi nižal frekvenco... Če sam kaj od sebe počne, pa ne vem:)

Aja, je pa zadeva testirana na Samsung F3 1TB diskih...

Bom v prihodnjih dneh naredil še eno particijo na koncu/začetku(ne vem na katerem delu diska se začnejo sektorji) in pogledal, kakšna je hitrost tam.
PA glede na to, da imam še 3 Samsung F4 2TB EcoGreen diske, bom preveril še, kakšne hitrosti dobim z njimi...

Will let you know...

Matej

Brane2 ::

Rabiš "okrogel" chunk, torej 256k in NE 265k.


Poleg tega, pri večjem chunku dosežeš večjo hitrost linearnega branja in vpisa, vendar trpiš pri velikem številu majhnih datotek.

Pri meni je bilo tako da je bila hitrost pri chunku 16k malo čez 200M/s, pri 64k sem prišel tja okrog 300M/s, pri 256K sem na 400* M/s in pri 1 ali 2M sem prišel na cca 650+ M/s. To z RAID-5 z 9-timi Samsungi F4 2TB.


Glede na hitrost posameznega diska bi najbrž dobil s kako dobro Areca kartico kaj v stilu 800+ M/s tudi z manjšim chunkom, a to me ne sekira.

Zame je 400+M/s čez glavo dost.
On the journey of life, I chose the psycho path.

Brane2 ::

levaky je izjavil:


Po 10 minutah je bil RAID postavljen in sem na njem postavil ext3 fs(default opcije).


NE DEFAULT OPCIJE.
Poleg tega, ext4 se obnaša bolje od ext3. Če nimaš problemov s tem, potem uporabi nekaj v stilu


mke2fs -t ext4 -m 0 ( ne rabiš rezerve za root- tudi 1% znese kar nekaj na polju od par TB) -O dir_index,filetype,sparse_super,extent,large_file -L MY_RAID_0001 -E stride=( chunksize for the raid in 4k blocks),stripe-width( chunksize * number of data drives in raid /for RAID-5: number of drives -1 / in 4k blocks) /dev/tvoj_md

nato sledi:

tune2fs -c 256 -i 365d -e remount-ro ( če pride do napake, rmeountaj read-only ) -o user_xattr,acl.journal_data_writeback,nobarrier /dev/tvoj_raid

sam uporabljam journal_data_writeback in nobarrier. Če imaš kaj bolj kritičnega, pač uporabi druge opcije...
On the journey of life, I chose the psycho path.

Zgodovina sprememb…

  • spremenil: Brane2 ()

Brane2 ::

Nego, neki druzga me še zanima.

Ko sem amlo brskal okrog teh 19" ohišij, sem našel par zanimivih variant iz NetStorejeve ponudbe.

Imajo modele, ki ponujajo za bližnjo povezavo med strežniki ali z/na delovne psotaje namesto Etherneta hiter PCIe link preko kabla.

Stvar zgleda tako, da daš namesto mrežne v vsako mašino PCIex8 bridge kartico, nato pa ju povežeš preko večžilnega kabla.

Stvar sicer dela na kratke razdalje, vendar ponuja prenostne hitrosti PCIe x8 v1.0 - 20 Gb/s, torej 2,5 GiB/s.

Primer je recimo tu:
Netstor NA 380A

Zanima me, če kdo ve kaj več o teh karticah in linkih.

A se da to dobiti posebej in kje ?
On the journey of life, I chose the psycho path.

Pyr0Beast ::

Me likes. Ne vem sicer ali paše notri prava plata, ali je vse skupaj le 'podaljšek', tako kot je bil včasih prisoten PCI ali ISA riser.
Some nanoparticles are more equal than others

Good work: Any notion of sanity and critical thought is off-topic in this place

Brane2 ::

Kot piše gor, je za pravo plato. Je kao riser, ampak očitno je gor nekaj več, nekakšen PCIe bridge, ker ti daje štiri konektorje, ki jih lahko polno uporabiš.

Dva sta x8 in sta namenjena kartici za eksterni PCIe most, nato RAID/HBA kartici, preostala dva porta pa lahko organiziraš bodisi kot 2 x PCIex4 oziroma 1x PCIex8...

Hmm. Manj všečna je cena. cca 1700 GBP v Angliji.
On the journey of life, I chose the psycho path.

Zgodovina sprememb…

  • spremenil: Brane2 ()

levaky ::

Sem sedajle opazil, da chunk ni bil nastavljen na 265k kot sem napisal, ampak je bil na 512k. Sem sedajle še enkrat kreiral raid z 256k chunkom.

Formatiral kot si rekel:
mke2fs -t ext4 -m 0 ( ne rabiš rezerve za root- tudi 1% znese kar nekaj na polju od par TB) -O dir_index,filetype,sparse_super,extent,large_file -L MY_RAID_0001 -E stride=64,stripe-width=128 /dev/md1
Ali sem pravilno nastavil stride in stripe-width? Nisem ziher, da sem prav razumel un text.

Sledil je tunefs:
tune2fs -c 256 -i 365d -e remount-ro -o user_xattr,acl.journal_data_writeback,nobarrier /dev/md1

Rezultati bonnie++:
- Seq write: 220MB/s (CPU: 15%)
- Seq rewrite: 70MB/s (CPU: 5%)
- Per Character write: 880kB/s (CPU: 98%)
- Seq read: 290MB/a (CPU: 10%)
- Per Character read: 4900kB/s (CPU: 92%)
- Random seeks: 450/s (CPU: 8%)

No, write se kar ornk pozna! Tole so pa že lepi performanci in tudi vrh glave za moje potrebe, ker bo NAS/SAN tako ali tako z mrežo povezan preko 2x 1GBps mrežnima in več kot teoretičnih 220MB/s ne rabim...

Kako pa je trenutni sistem odporen na izpade štroma... Sicer je storage na UPSu, pa vseeno me zanima, koliko je zadeva odporna. V primeru HW RAIDa imaš baterijo za napajanje rama, kako je tukaj?

Glede ohišij je pa tko, da najceneje, kar sem našel od teh 19" ohišij, je omenjeni Norco, ki ga imamo. Placa za 20 diskov, notri pa plac za plato,... in cena okoli 540EUR. Kupl pri EU uvozniku Ri-Vier. Glede na cene konkurence je tole več kot pol ceneje:)

Matej

LuiIII ::

Za povezavo bi sam namesto PCI bridga v zgornjem primeru uporabil Infiniband brez switcha. Podobno kot crossover pri ethernetu. Vse kar se rabi sta dve Infiniband kartici in seveda OS support.

Daedalus ::

Morda veš model HBAja?


Huh, bom pobrskal po LSI strani in spominu. Mel je dva eksterna mini sas konektorja, gor smo pa obesili HP MSA škatlo. Javim kasneje.

Btw, tud iozone je za probat kak benchmark pognat - IIRC ma ta že pripravljene različne scenarije. Al pa mogoče phoronix test suite, tist ma tud za diske trpinčit.

Kako pa je trenutni sistem odporen na izpade štroma... Sicer je storage na UPSu, pa vseeno me zanima, koliko je zadeva odporna. V primeru HW RAIDa imaš baterijo za napajanje rama, kako je tukaj?


Jah, če ga "grdo" izklopiš boš ob vse, kar se ni zapisalo na disk, pa fsck se bo delal.
Man is condemned to be free; because once thrown into the world,
he is responsible for everything he does.
[J.P.Sartre]

Zgodovina sprememb…

  • spremenilo: Daedalus ()

Brane2 ::

levaky je izjavil:


Formatiral kot si rekel:
mke2fs -t ext4 -m 0 ( ne rabiš rezerve za root- tudi 1% znese kar nekaj na polju od par TB) -O dir_index,filetype,sparse_super,extent,large_file -L MY_RAID_0001 -E stride=64,stripe-width=128 /dev/md1
Ali sem pravilno nastavil stride in stripe-width? Nisem ziher, da sem prav razumel un text.



Ja, prav - za 256 KiB chunk. Slednjega bi lahko tudi pustil na 512KiB in bi verjetno dobil višje prenose, vendar bi se ti slednji poznali šele ob dodaji dodatnih diskov v RAID, kjer bi število prekeinitev v sekundi na CPUju postalo problem. Ampak tudi takrt razlika ne bi bila nevemkaj.

Po moje ka pusti tako, je nekje optimalno. Ko boš dodal nove diske v polje, bodo tudi prenosne hitrosti zrasle.

Sledil je tunefs:
tune2fs -c 256 -i 365d -e remount-ro -o user_xattr,acl.journal_data_writeback,nobarrier /dev/md1


Mali zajeb z moje strani. Med acl in journal_data_writeback bi morala biti vejica in ne pika.

poglej s tune2fs -l če imaš te opciji aktivni po defaultu in jih aktiviraj, če je treba.
On the journey of life, I chose the psycho path.

Zgodovina sprememb…

  • spremenil: Brane2 ()

Brane2 ::

levaky je izjavil:


Kako pa je trenutni sistem odporen na izpade štroma... Sicer je storage na UPSu, pa vseeno me zanima, koliko je zadeva odporna. V primeru HW RAIDa imaš baterijo za napajanje rama, kako je tukaj?


Ranljiv je na dveh nivojih- če je bil "v letu " v trenutku izklopa kak vpis na polje, potem bo ob vklopu sledila sinhronizacija polja, ki zna potrajati, ker se bo izračunala celotna pariteta vseh diskov.

Temu se lahko izogneš, da na polju aktiviraš "bitmap" opcijo. Gre za pakiranje bitov, kjer vsak bit označuje "umazanost" nekega področja, recimo 1GiB polja. Bit se torej setira, ko je v to področje karkoli vpisano, resetira pa, ko je vpisana ustrezna pariteta.

Če sistem pade, računalnik samo pogleda katera polja so ostala umazana in preračuna samo ta, kar je ponavadi pardeset MB do pardeset GB in veliko manj kot recimo polna kapaciteta. Jeba s tem je upočasnitev RAIDa in intenzivno drkanje glav pri vpisih, tudi če so ti linearni. Kadarkoli mašina začne pisat neki na novo področje, mora it nekam na začetek diska in setirat bit v bitmapu in ga resetirat ko konča. Čimgostejši je bitmap ( da en bit pomeni manj MB na disku), tem bolj pogosto je to "praskanje".

Zato sem jaz to imel vklopljeno samo ob debagiranju sistema na začetku, pozneje sem to izklopil.

Drugi problem je izguba podatkov v bufferjih, preden so ti vpisani v filesystem. Za te zadeve ima ext4 journal. Podatke boš sicer še vedno izgubil, a vsaj filesystem bo vedel, katerri fajli in inodei so problematični in ne bo šel checkirat celega diska. Glede na občutljivost podatkov lahko nastaviš s parametri tipa journal_data_xxxx in podobnimi kompromis, ki tebi ustreza.

Meni je journal_data_writeback in nobarrier čisto kul. Gre za najhitrejšo opcijo, katere varnost mi čisto ustreza, glede na to, da UPS imam.


Pi*da ampak te škatle so drage ko prasica. Za potebe malih pdjetij bi se imho čisto lepo splačalo dat delat škatlo MALI-ju, tudi če je brez predalov za diske ( in na ta račun pustit v škatli kak disk kot cold-spare in od razlike kupit par diskov PSU in UPS... :|
On the journey of life, I chose the psycho path.

levaky ::

Sem za foro naredil še test z 16k chunki...

Format:
mke2fs -t ext4 -m 0 -O dir_index,filetype,sparse_super,extent,large_file -L MY_RAID_0001 -E stride=2,stripe-width=4 /dev/md1

Rezultati bonnie++:
- Seq write: 232MB/s
- Seq rewrite: 56MB/s
- Per Character write: 880kB/s
- Seq read: 97MB/a
- Per Character read: 5300kB/s
- Random seeks: 466/s

dd write test:
root@fatlady:~# dd if=/dev/zero of=/mnt/vg0/testaano count=8000 bs=1M
8000+0 records in
8000+0 records out
8388608000 bytes (8.4 GB) copied, 33.7908 s, 248 MB/s

dd read test:
root@fatlady:~# dd if=/mnt/vg0/testaano of=/dev/null
16384000+0 records in
16384000+0 records out
8388608000 bytes (8.4 GB) copied, 78.9486 s, 106 MB/s

Zanimivo, da write ostaja enak, medtem ko read pade na okoli 100MB/s. Očitno bo chunk size 256k oz 512k res najboljša izbira(bom za foro preizkusil še 64k).

Je pa res, da tukaj prenašam ogromne fajle. Bom probal s kakim drugim programom še prenos večje količine majhnih datotek, da vidim kako se stvar obnese tam, ker na polju bomo imeli sicer ogromno video vsebine, kjer so datoteke velike, po drugi strani pa bomo imeli tudi dokumente in podobne datoteke, kjer pa bo občasno potrebno prenašati več majhnih datotek.

Še eno vprašanje: na enem polju bom imel web strani in maile, pa me zanima, katero verzijo RAIDa priporočate... RAID10 al RAID5?

Matej

Brane2 ::

Meni RAID-10 nikoli ni bil posebej všeč, ker enostavno preveč vržeš stran, pa tudi kako ga ekspandiraš ?

RAID-5 recimo lahko dodaš en ali dva diska brez problema. Kako dodaš en disk v RAID-10 ?

Ravno tako ne RAID-5 s premalo diski. "Zdravo" polje se zame začne od 6 diskov nadalje - torej 4 disk v raid + 1 hot-spare + 1 cold spare.

V tem scenariju imaš samo 50% površine diska za podatke.

Zato raje več diskov, kot stranski efekt pa dobiš večje hitrosti prenosa...

levaky je izjavil:

Sem za foro naredil še test z 16k chunki...

Format:
mke2fs -t ext4 -m 0 -O dir_index,filetype,sparse_super,extent,large_file -L MY_RAID_0001 -E stride=2,stripe-width=4 /dev/md1


Mislim da si tu narobe zračunal stride in stripe witdh. Pri 16 chunk ti je stride 4 ( torej 4 * 4k), stripe-width pa 8 ( torej 2 * 4 * 4k)...
On the journey of life, I chose the psycho path.

Zgodovina sprememb…

  • spremenil: Brane2 ()

levaky ::

Brane2 je izjavil:


Mislim da si tu narobe zračunal stride in stripe witdh. Pri 16 chunk ti je stride 4 ( torej 4 * 4k), stripe-width pa 8 ( torej 2 * 4 * 4k)...


A se ne računa stripe-width kot stride * število diskov v polju(v primeru RAID 5 N-1, kar pri meni znese 2).

Brane2 ::

man mke2fs:


-E extended-options
Set extended options for the filesystem. Extended options are comma separated, and may take an argument using the equals ('=')
sign. The -E option used to be -R in earlier versions of mke2fs. The -R option is still accepted for backwards compatibility.
The following extended options are supported:

stride=stride-size
Configure the filesystem for a RAID array with stride-size filesystem blocks. This is the number of blocks read or
written to disk before moving to the next disk, which is sometimes referred to as the chunk size. This mostly
affects placement of filesystem metadata like bitmaps at mke2fs time to avoid placing them on a single disk, which
can hurt performance. It may also be used by the block allocator.

stripe-width=stripe-width
Configure the filesystem for a RAID array with stripe-width filesystem blocks per stripe. This is typically stride-
size * N, where N is the number of data-bearing disks in the RAID (e.g. for RAID 5 there is one parity disk, so N
will be the number of disks in the array minus 1). This allows the block allocator to prevent read-modify-write of
the parity in a RAID stripe if possible when the data is written.



stride je torej chunk size, izražen v blokih. Pri chunku 16 k je stride= 4 ( * 4k), stripe-width pa 2x večji...
On the journey of life, I chose the psycho path.

levaky ::

Eh ja, stride sem narobaj zračunal pri zgornji enački, pol je pa tudi stripe narobe prišel... Maš prav ja!

Dami ::

Res škoda da nisi šou tule brat zadeve pred nakupom. Maš en kup threadov kak si folk sestavla podobne in hujše serverje (večinoma oz skoraj vse se suče okol ZFS). Pač z expanderji je lahko sranje. Ker pa je cena sas kontrolerjem zelo padla (posebej na račun tele kartice), folk raje vtakne not 2-3 HBA kontrolerje in si nardi raid2z.
Don't worry about me. The bleeding is just the begining of a healing process.

Daedalus ::

Evo še moj dolg - s temle HBA-jem sem testiral ZFS. Ti bi pa rabil kako varijanto z internimi porti.
Man is condemned to be free; because once thrown into the world,
he is responsible for everything he does.
[J.P.Sartre]

levaky ::

Dami: ne govori:) Tudi sam nase sem jezen, ampak takrat smo imeli eno krizo in smo po hitrem postopku rabili storage, pa sedaj vidimo, da smo naredili več skode kot koristi. Vsaka šola nekaj stane... :( V najslabšem primeru bomo požalvali eure, ki smo jih dali za extender, kontroler pa smo tako ali tako vrnili in dobili denar nazaj. Tudi sam trenutno gledam tele SAS HBAje in sem zaenkrat še najbolj zagledan v Intelovega SASUC8I, ki na žalost podpira samo 3GBps prenose, je pa dokaj dobro stestiran in, kolikor sem zaenkrat prebral, z njim ni večjih težav. Tudi s ceno 130EUR je precej ugoden. Si bom pa pogledal še tvojo kartico, ki že omogoča 6GBps prenose in je z ceno 200EUR tudi precej ugodna... Trenutno sem na mestu, kjer rajši kupim malo starejšo in preverjeno kartico kot pa nekaj čisto novega, ki deluje bolj tako-tako:) Bom še malo prebral, kaj o njej pravijo na HardForum-u.

Sicer sem si pa ravno v virtualno mašino naložil FreeNAS, da si malo ogledam tale ZFS, saj sem o njem prebral marsikaj dobrega. Se ga pa malo bojim, ker Unix-a nisem vajen, čeprav je s pomočjo FreeNAS interfaca stvar veliko lažja za uporabo:)

Trenutno me najbolj to heca, da niti ne razumem sestave ZFSja... V linuxu so mi diski, sw raid, lvm in to dokaj logični, pri ZFSju se ma popolnoma lesen:)

Kolikor sem na hitro pogledal, najprej inicializiraš diske kot ZFS storage pool device. Potem sestaviš Virtual device, v katerem določiš diske in tip RAID polja.
Za tem sestaviš pool, v katerega vklopiš virtualne device in ga mountaš v en direktorij?

Če potegnem vsporednico z linuxom:
inicializacija ZFS pool storage = izdelava particije in nastavitev type na SW RAID
Virtual device = sestava raida z mdadm
Pool = LVM, v katerega dodamo vsa raid polja.

Malo me heca zadnji pool, saj pri LVMju potem še znotraj LVMja določiš logične naprave, ki je lahko vsaka svoj device, kako je s tem pri ZFSju... Vsak pool je svoj device, ki ga nekam mountaš?

lp, Matej

Daedalus je izjavil:

Evo še moj dolg - s temle HBA-jem sem testiral ZFS. Ti bi pa rabil kako varijanto z internimi porti.


Hvala za info... Bom malo pobrskal po internih varjantah... Vidim da imam na izbiro 3xxx serijo, ki je 3GBps in 9xxx serijo, ki je 6GBps, čeprav se mi zdi, da sem na Hard Forum-u bral, da so driverji za 9xxx serijo še v beta/RC stanju in da še niso čisto stable... Kakorkoli že, hvala!

Matej

Zgodovina sprememb…

  • spremenil: levaky ()

Dami ::

Oni ibm kontroler mislim da se lahk dobi dosti ceneje (točno ceno povem ko zvem). Po zgradbi je identična LSI 9240-8i (več o tem tule, je pa tud na [H]ard debata o njej). Driver za SAS2008 je čisto vredu (sploh solaris ma super support, za bsd je malo drugače), edini problem je ker je ta kartica kao raid in ne HBA, vendar raid ne dela ker ga moraš dokupit. Kok sn bral naj bi (tudi za zfs) delala ok in ne meče ven diskov.
Za ZFS maš 2 variante (3 če šteješ freenas vendar ga jaz ne bi, ker ima starejšo zfs verzijo): Solaris (opensolaris, openindiana, nexenta, solaris11 itd...) ter freebsd. Za obe možnosti sta se našla 2 modela ki sta iz nule nardila GUI (ok nexenta ga ima tud vendar je plačljiva zadeva za večje kapacitete, sam core je free) tak da najbolše da si na onem forumu prebereš vse o njima in se pol odločiš za eno varianto (imo je solaris veliko bolj napreden od freebsd, vendar je gui za slednjega dosti bolši kot za prvega...cant have everything :)).
Don't worry about me. The bleeding is just the begining of a healing process.

levaky ::

Sem na hitro malo pobrskal o problemih, ki jih ima SAS2008 in je fora v temu, da kontroler ne prepozna disk po Controller ID, ampak po WWN - Topic na Nexenta forumu. Vprašanje pa je, koliko to moti, ker tako ali tako daš diskom label in jih po tem najdeš. Je pa res, da je kartica kao RAID, zato jo moraš flash-at z LSI IT firmwarom, da potem deluje kot HBA. User _Gea za trouble free tako ali tako svetuje LSI Controller based on 1068e (always the best) or SAS2 LSI 2008 with IT firmware . Razlika med kontrolerjema je še ta, da je 1068e PCIe v1.0 in ima max prenos po PCIeju 2GB/s, medtem ko ima SAS2008 4GB/s.

Za FreeNAS sem videl ja, da ima staro verzijo ZFSja, tako da je ta opcija malo padla v vodo... Odločitev med Solaris in BSD bo jeba:) Kolikor sem na hitro prebral, Solaris tudi ni free za comercial use, tako da zna pri nas odpade ker smo zavod... (če le nisem kaj narobe prebral).

lp, Matej

Brane2 ::

Zakaj toliko komplikacij ?

Stvar bo več ko dovolj hitra za dostop skozi Ethernet.

Zakaj komplicirati s hardverjem in OS-i samo zaradi filesystema ?
On the journey of life, I chose the psycho path.

levaky ::

Sej hardware ima enake problem tako v linux-u kot na unixu(v primeru SAS 2008).

Sej drugače nimam namena ne vem kako komplicirat, ampak če že nekaj postavljam, kar naj bi delovalo dolgo in stabilno, bi rad preučil vse opcije. Ima ZFS tudi določene prednosti pred ostalimi FSji, ki bi mi potencialno prišli prav. Ima pa seveda tudi slabosti... Ampak moram probati in potestirati tako enega kot drugega, da se potem lahko odločim. Da ne bo na koncu tako kot je bilo z Adaptecom, da mi bo po pol leta žal....

Matej

levaky ::

Dami je izjavil:


...tak da najbolše da si na onem forumu prebereš vse o njima in se pol odločiš za eno varianto (imo je solaris veliko bolj napreden od freebsd, vendar je gui za slednjega dosti bolši kot za prvega...cant have everything :)).


Kaj je pri Solarisu bolj napredno kot pri freeBSDju? Tak iz glave...

Matej

levaky ::

Na hitro sem na HF našel tole:
* Kernel-level CIFS driver (FreeBSD-only; present in OpenSolaris). Workaround: Samba
* Kernel-level iSCSI driver (FreeBSD-only; present in OpenSolaris). Workaround: istgt port
* Expanding RAID-Z and RAID-Z2
* Transparent encryption (zfs-crypto project integration target Q1 2010; FreeBSD might import it after inclusion in OpenSolaris)

*Za prvo in drugo me zanima, kolikor je performance in features razlike...
*Tretje mi ni čisto jasno, saj lahko RAIDZ expandaš tudi v FreeBSDju, res pa je, da ga lahko expandaš samo z dodatnim poolom(se pravi dodatni 3je diski za RAID5). Ali Solaris omogoča expand RAIDZja tako kot v linuxu z MDADM, ko samo dodaš device?
* Za četrto mi je vseeno.

lp, Matej

Daedalus ::

Ali Solaris omogoča expand RAIDZja tako kot v linuxu z MDADM, ko samo dodaš device?


Hmm, bi blo za probat. Če najdem kaj časa, sporočim.
Man is condemned to be free; because once thrown into the world,
he is responsible for everything he does.
[J.P.Sartre]

kogledom ::

Nazadnje ko sem preveril še ni bilo podpore za dodajanje device v RaidZ, samo pool. Beri tukaj. Bi pa naj bila ta rešitev v razvoju, sem takrat iskal kdaj bi naj bilo implementirano pa nikjer nisem našel predvidenega datuma.
Razlika med LSI 1068e in LSI 2008 je še ta, da ima 2008 6Gbs.
Glede nakupa dodatnega kontrolerja, te pride dosti cenejše, če je ta že integriran v matični, kot je to npr v Supermicro x8si6-F, več o tem tukaj.

edit: na napp-it.org je en lep vodič, kako najlažje virtualizirat katerikoli nfs OS.

Zgodovina sprememb…

  • spremenil: kogledom ()

Dami ::

levaky je izjavil:


Kaj je pri Solarisu bolj napredno kot pri freeBSDju? Tak iz glave...

Matej

Tak kot si že sam ugotovil, kernel CIFS driver (samba niti gbit lana ne more zafilat), mnogo bolši hardware support, bolše uporaba rama, ZFS verzija 31 (bsd na 28, pa še to samo z zfsguru varianto).
Kar se pa ZFS funkcij tiče (raidz expanding) je pa tak na obeh isto, torej ne moreš samega polja povečat, lahko nardiš nov raid(2)z, ter ga dodaš prejšnemu v pool, sam potem ju ne moreš več niti odstranit. Kar se pa kontrolerjev tiče, bi pa tudi jaz vseeno stare nabavil. Glede na to da bo gor samo 8 diskov bo bwja še preveč.
Je pa res, da lahko z zfsguru pravilno allignaš 4kb sektor diske. Če se vseeno odločiš za solaris, lahko pol tako zrihtan pool importaš tja. Seveda js s tem nimam 0 izkušenj kr zaenkrat samo berem in si pripravljam podlago za moj server konc/drugo leto (če sploh).
Don't worry about me. The bleeding is just the begining of a healing process.

levaky ::

Kogledome: ja, sem tudi sam zasledil idejo, da je implementacija dodajanja diskov v RAIDZ v planu, samo nikjer nobenega timetabla. Glede na to, da plato že imam, odpade opcija nakupa nove in je tako edina izbira nakup kontrolerja. Kot sem že rekel, je trenutno bolj vprašanje ali LSI 1068e, ali LSI 2008. Slednji je novejši in hitrejši, prvi pa je precej dolgo v uporabi in dobro stestiran. Bom moral o tem še malo prebrati in se nato odločiti.

Dami: Mja, tale samba je en pain in the ass. Bom danes za foro postavil ZFSGuru na server in malo sprobal samba in iSCSI performance (baje iSCSI tudi občasno trpi na FreeBSDju). Glede 4k aligna mi je pa stvar dokaj pomembna, saj imam Samsung F3 in F4 diske, ki imajo vsi 4k sektorje... Če ne drugega, bom diske na liveCD alignov in naredu poole, potem pa importal... Bi bilo pa bolj fino, če mi tega nebi bilo potrebno delati ločeno:)

No, časa imam dovolj in bom preveril obe možnosti...

Mimogrede, kako je z licenco za Solaris, je kateri free for comercial use?

Matej

U še neki!

V Linuxu recimo, v LVMju narediš logične diske, ki imajo lahko različne velikosti. Recimo web 10GB, mail 20GB, share 100GB.

V ZFSju pa znotraj poola narediš 3 FSje(web, mail in share) in imajo vsi na razpolago ves prostor poola. Kako določiti, koliko ima kateri FS prostora na razpolago? Recimo, da mi ne more share zafilati celoten disk in s tem onemogočiti delovanje mail in web FSja... Je to sploh mogoče?

Matej

Zgodovina sprememb…

  • spremenil: levaky ()

Daedalus ::

Mimogrede, kako je z licenco za Solaris, je kateri free for comercial use?


OpenSolaris je ena opcija. Oziroma njegov naslednik... malo poguglaj. Lahko pa tud kak "hibrid" tipa Nexenta - OSOL kernel z Ubuntu userspacom.

V ZFSju pa znotraj poola narediš 3 FSje(web, mail in share) in imajo vsi na razpolago ves prostor poola. Kako določiti, koliko ima kateri FS prostora na razpolago? Recimo, da mi ne more share zafilati celoten disk in s tem onemogočiti delovanje mail in web FSja... Je to sploh mogoče?


IIRC lahko z enim ukazom določiš kvoto na ZFS FS. Očitno se prav spomnim

Vsekakor pa še eno priporočilo - ker ima vsak zfs FS kup nastavljivih opcij, ne šparat s tem. Kr lepo vsak pomembnejši "direktorij" skreiraš kot zfs fs v poolu in pol gor štelaš stvari po mili volji.
Man is condemned to be free; because once thrown into the world,
he is responsible for everything he does.
[J.P.Sartre]

levaky ::

Ustrezalo bi mi nekaj takega, da bi lahko na njem poganjal tudi kak webGUI. Napp-it na srečo teče tudi na Nexenti, prav tako pa tudi na OpenIndiani. Ne vem pa kako je z razvojem omenjenih "distribucij", kako hitro se prenašajo stvari iz Solarisa v njih, sploh sedaj, ko je(če sem prav prebral), razvoj OpenSolarisa ustavljen oz. ga Oracle ne podpira več.

Vidim pa, da se ga FSjem nastavljati kup opcij, ki jih običajni webGUI-i niti ne podpirajo.. Se pravi bomo kombinirali tako GUI kot konzolo:)

Matej

levaky ::

Danes sem se malo igral z ZFSjem in sem najprej naložil FreeBSD z ZFSguru:
Easy zadevca za postavit, diske hitro zmečeš v pool, narediš FSje in že lavfa samba... Tudi en iSCSI volume sem naredil, a ima webGUI eno napako in po defoltu nastavi velikost iscsi LUNa na 1GB, četudi je ZVOL velik več... Moraš zadevo ročno popraviti in potem dela(zna biti da ima latest webgui že to napako odpravljeno). Prenosi po sambi pa malo trpijo... Hitrost prenosa 9GB fajla je precej nihala, od 70 pa vse do 40MB/s... iSCSI na žalost nisem uspel stestirat... Pravtako v GUIju ne moreš nastavljati kar nekaj stvari, kot so snapshoti in podobno(comming in the next versions...). Ena fajn stvar, ki jo ima ZFSguru pred OpenIndiano in napp-it je to, da se lahko tudi sistem inštalira na ZFS.

Druga inštalacija je bila OpenIndiana(open source fork OpenSolarisa) in napp-it web frontend. Vse je šlo brez problema in napak. Naredil poole in samba ter iSCSI share... Samba je bila prec online in prenos je bil konstantno nad 80MB/s. iSCSI device mi je windows kišta našla, ni pa mi hotelo prikopiti diska. Za iskanje napake nisem imel časa, tako da se bom tega lotil naslednji teden. GUI je precej bolj nepregleden in nametan v primerjavi z ZFSgurujem, ponuja pa veliko več možnosti nastavitev. Se bom tako enega kot drugega malo bolj podrobno lotil, ko pridem iz dopusta. Je pa fino videti, da CIFS protokol deluje tako kot je treba, za razliko od Sambe. Škoda, ker še BSD nima kernel-lever driverja za cifs.

Uglavnem, naročena sta tudi 2 Intelova SASUC8I HBAja. Ker so LSI 1068e based HBAji dodobra stestirani, sem šel kar z njimi. Na HardForumu se ljudem odlično obnesejo, so preverjeni in ustrezajo mi konektorji na koncu kartice(zaradi dolžine SAS kablov, čeprav vidim, da ima low profile LSI 2008 tudi konektorje na koncu kontrolerja). Pa 1068 so dokaj poceni(130€), za razliko pa sem dokupil še 8GB rama(preden grejo cene gor zaradi krize na japonskem:P)...

Naslednji teden, ko dobim robo, pa kej več napišem...

Matej

kogledom ::

levaky je izjavil:

iSCSI device mi je windows kišta našla, ni pa mi hotelo prikopiti diska.

zvol moraš share-at potem ti bo pa priklopilo tudi disk. Verjetno si to pozabil in ti ga zato ne najde.

LuiIII ::

Sam moram razširiti svoj pool in sem v nabavi za LSI based 2008 HBA-jem in vsaj 4x Hitachi 5k3000 diski (imajo 512k sectorje tako kot moj pool). Ima kdo kako idejo kje pri nas priti do teh diskov? Sem malo gledal naokoli in jih nikjer ni na cenikih. Zadeva že dobro leto teče na OpenSolarisu b130 in jo mislim nadgradit na OpenIndiano z napp-it. BTW, a je kdo morda že sprobal na Open Indiano dat PostgreSQl + PostGIS bazo in kako se kaj obnese? Sedaj imam zadevo na Windowsih in bi jo rad dal "bližje" podatkom. Nimam pa na ZFS serverju resourcov za virtualizacijo.

levaky ::

kogledom: pozabil sem nastavit target group in view... Danes je delovalo:)

LuiIII: mora biti nujno slovenija? Ker čez mejo se najde kar nekaj ponudnikov.

Danes sem namestil SE11, predvsem z namenom, da se še enkrat lotim testiranja iSCSIja in sambe, ter naredim kak benchmark... Samba je delovala podobno kot prejšnjič s prenosi med 70 in 80MB/s, medtem ko se je iSCSI odrezal veliko slabše... Prenosi so bili okoli 25MB/s, prav tako pa je load average na ZFS serverju narastel na 8... Povezal sem ZFS server in Win7 RTM.

Kakšne hitrosti dosegate ostali preko sambe in iscsija preko 1Gbps mreže?

Sicer sem pa SE 11 naložil tudi zaradi time-sliderja, ki ga bom malo bolj podrobno pogledal naslednji teden...

Še en benchmark z bonnie++:
Rezultati bonnie++:
- Seq write: 191MB/s
- Seq rewrite: 110MB/s
- Per Character write: 84MB/s
- Seq read: 200MB/a
- Per Character read: 74MB/s
- Random seeks: 650/s

Per Character write in read sta KONKRETNO boljša, povečalo se je tudi število random seekov v primerjavi z HW in linux SW raidom, medtem ko sta seq read in write malo nižja kot pri linux SW raidu, res pa je, da particije niso 4k aligned... Tisto bi verjetno dodalo še kak MB/s več...

lp, Matej
1
2
3 4


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Začetek projekta OpenZFS (strani: 1 2 3 )

Oddelek: Novice / Znanost in tehnologija
10316514 (11703) BaToCarx
»

OS za SAN (strani: 1 2 3 )

Oddelek: Operacijski sistemi
12215842 (12065) jlpktnst
»

Poceni ESXi strežnik(izbira HWja)

Oddelek: Strojna oprema
202752 (2457) levaky
»

Rack ohišje za diskovno polje

Oddelek: Strojna oprema
112431 (2307) levaky
»

RAID5 - software, s pomocjo maticne, kako drugace.

Oddelek: Strojna oprema
242212 (1731) Brane2

Več podobnih tem