vir: Nature
Lanskega decembra smo bili priče enemu najprelomnejših dogodkov v zgodovini biokemije, ko je Googlov laboratorij za strojno učenje DeepMind predstavil algoritem za računanje strukture beljakovin iz njihovega zaporedja aminokislin, AlphaFold 2. Takšna zmogljivost je bila že dolgo velika želja biokemikov, genetikov in mikrobiologov, saj smo doslej natančno zgradbo proteinov lahko dognali zgolj z njihovim opazovanjem z naprednimi metodami, kot sta rentgenska difrakcija in krioelektronska mikroskopija, ki so običajno počasne in drage. Čim natančnejše poznavanje zgradbe beljakovin pa je ključno za razumevanje njihove funkcije, saj je ta odvisna od tega, kako se verige aminokislin zvijejo, oziroma razpostavijo v prostoru. Pred AlphaFoldom 2 takšnega zvijanja nismo znali hitro in zanesljivo računati, odslej pa je za dobršen del beljakovin to mogoče. To odpira neslutene zmožnosti pri snovanju zdravil in prepoznavanju bioloških mehanizmov v živih bitjih, saj lahko raziskovalne postopke skrajša za več let!
Ob prvi objavi so v DeepMindu obljubili, da bodo kodo algoritma odprli in popisali v konkretnem strokovnem članku. Toda pri tem so bili očitno precej metodični, kar je bilo za akademike z Washingtonske univerze v Seattlu prepočasno. Kot večino preostale znanstvene skupnosti, je tudi njih AlphaFold 2 vrgel po tleh in jih navdal s takšno vznesenostjo, da so se namenili zgolj na podlagi skopih informacij, ki jih je o AlphaFoldu 2 doslej povedal DeepMind, napraviti lasten algoritem. Tega so poimenovali RoseTTaFold in ga prvič pokazali junija, nakar so v DeepMindu s svojim člankom vendarle pohiteli, tako da sta obe objavi prišli na 15. julij: DeepMindova v reviji Nature, konkurenčna pa v reviji Science.
Ob dejstvu, da je AlphaFold sedaj zares odprtokodna zadeva, je mogoče v članku videti še več zanimivih podrobnosti njegovega delovanja. Algoritem je tako sestavljen iz dveh glavnih "delovnih vej". Prva išče daljše verige aminokislin, ki so sorodne obravnavani, in na tej podlagi predvideva strukturo; po dognanjih inženirjev potrebuje nekje 30 vzorčnih sekvenc, da pridobi zadostno zanesljivost. Druga veja se ukvarja z manjšimi gradniki verig, kot so posamezni pari aminokislin. Nemajhen inženirski dosežek pa je, da obe veji med seboj nenehno komunicirata, da na koncu prideta do pravega kompromisa. Glede na decembrsko različico AlphaFolda 2 je najnovejša odprta zaradi novih optimizacij obenem tudi okoli 16-krat hitrejša.
RoseTTaFold se tekmecu solidno približa, ob upoštevanju, da je bil razvit v vsega pol leta in v akademski skupini ni bilo takšnih strokovnjakov za strojno učenje kot v DeepMindu. To kaže, da so v Googlovem laboratoriju dobro začrtali način reševanja problema, ker ga je očitno preprosto posnemati. Po pravilnosti izračunov je RoseTTaFold nekje na pol poti med AlphaFoldom 2 in ostalimi udeleženci na lanskem tekmovanju CASP, je pa v enem elementu še boljši: računanju proteinskih kompleksov, kakršen je hemoglobin. Njegovi snovalci so namreč pogumno predvideli, da bi bilo nemara mogoče pristop k preračunavanju zvijanja neposredno uporabiti tudi za iskanje stičnih točk med različnimi beljakovinami v njihovem kompleksu - kar se je izkazalo za resnično. RoseTTaFold sicer uporablja tri delovne veje in ravno to, koliko vzporedno delujočih podalgoritmov je smiselno uporabljati, bo verjetno poglaviten predmet raziskovanja v bližnji prihodnosti.
Sam pojav takšnega "instant tekmeca" kaže, kako zelo si je področje želelo tovrstnih rešitev, in da sta oba algoritma odprtokodna, daje slutiti, da se zares na široko odpirajo vrata do bistveno hitrejših raziskav v delovanju živih organizmov širom različnih področij. Odkar so v Seattlu prejšnji mesec dali RoseTTaFold na razpolago, je že izračunal dotlej neznane zgradbe 5000 beljakovin. Med njimi je bil tudi protein, s katerim si je razbijal glavo David Agard, biofizik iz San Francisca. Rezultat je dobil nazaj v nekaj urah. "S tem so mi prihranili leto dni dela."