Hitrejše določanje zaporedja DNK z grafičnimi procesorji

Matej Huš

9. jan 2012 ob 21:50:23

Grafični procesorji, ki so jih dolga leta v popolnost izkoriščali le strogo namensko, torej za izračun in prikazovanje slike, so v zadnjih letih pridobili mnogotera mesta uporabe. Izkazalo se je namreč, da so pri operacijah s števili s plavajočo vejico neprimerno hitrejši in varčnejši od centralnih procesorjev, zato so zasedli nepogrešljiva mesta v superračunalnikih in tudi v manj velikopoteznih aplikacijah prek Nvidine CUDE oziroma AMD-jevega Streama. Tipičen primer je razbijanje kriptografskih gesel, ki na grafičnih procesorjih poteka za več kot velikostni razred hitreje.

Uporaba grafičnih procesorjev za splošno računanje ima tudi raznovrstno uporabo v znanosti. Kitajski biokemijski laboratorij BGI v Šendženu s pridom izrablja GPU-je za urejanje podatkov pri sekvenciranju DNK (iskanju nukleotidnega zaporedja baz). Čas za računalniško obdelavo se je po vgradnji Nvidiinih grafičnih procesorjev v strežnike skrčil s štirih dni na vsega nekaj ur.

Za uspešno poganjanje aplikacij na grafičnih procesorjih z opaznim prihrankom časa, je potrebno kodo programov in algoritme prepisati v ustrezen jezik. Najuspešnejši je prenos v primerih, ko algoritem sestojih iz več neodvisnih korakov, ki jih je mogoče učinkovito paralelizirati. Laboratoriju BGI je v sodelovanju z Nvidiio uspelo prenesti orodja za analizo genoma v okolje, ki deluje na GPU-jih, kar ni zanemarljiv dosežek. Odprtokodne skupnosti delajo na podobnem primeru že nekaj časa, a rešitev še niso objavile.

S tem je BGI napadel pomembno ozko grlo pri določevanju genoma. Cena sekvenciranja se je v zadnjem času eksponentno nižala, medtem ko ji cena analize ni sledila. Slednja je namreč računsko zelo zahtevna. Pri tako imenovanem hitrem sekvenciranju (shotgun sequencing) se DNK z encimi naključno razreže v več koncev različnih dolžin (več istih molekul DNK, a vsaka se razreže drugače), ki se jim potem določi nukleotidno zaporedje baz. To je potrebno storiti, ker ni mogoče sekvencirati večmilijonskih verig DNK. Pridobljene podatke pa je potem potrebno zložiti nazaj v pravo zaporedje, pri čemer si pomagamo s prekrivanjem istoležnih segmentov. Zmešnjavo rešijo računalniki.

Kljub temu pa odkritje še ne bo revolucionarno predrugačilo sekvenciranja genoma. Genski zapis bo resda mogoče pridobiti ceneje in hitreje, a določanje zapisa zavoljo zapisa samega ni cilj raziskav. Še bolj prominentno ozko grlo od računske moči je namreč poznavanje genov, saj je treba v sekvencirani DNK še vedno poiskati posamezne gene in operone. In tudi poznavanje več tisoč genov in vseh njihovih modifikacij še ni dovolj, saj je potrebno ugotoviti, kateri so medicinsko pomembni.