Pobegla Yandexova koda razkriva, kako delujejo iskalniki

Matej Huš

31. jan 2023 ob 19:57:46

Na internetu se je znašlo 45 GB izvorne kode pogona ruskega spletnega iskalnika Yandex, ki ima četrti največji tržni delež. Prve analize kažejo, da gre za kodo iz julija 2022. Poleg iskalnika koda pripada še zemljevidom, osebni pomočnici, Yandex Mailu, oblačnim storitvam in drugim storitvam, ki jih nudi ruski velikan. Gre za enega največjih pobegov izvorne kode doslej in prvi tak primer pri iskalnikih, ki odkriva zelo zaželene informacije o algoritmih in rangiranju iskanih zadetkov. Iz Yandexa so sporočili, da ni šlo za vdor, temveč je kodo odtujil eden izmed sedaj že nekdanjih zaposlenih.

BleepingComputer se je pogovarjal z Grigorijem Bakunovom, ki je v v letih 2002-2019 delal za Yandex. Po njegovem mnenju je arhiv nedvomno pristen, saj mu je koda znana. Pojasnil je, da je bil motiv najverjetneje političen, neznani storilec pa kode ni skušal prodati, temveč jo je javno priobčil. V njej ni nobenih osebnih podatkov, temveč zgolj funkcionalnosti. Pojasnil je še, da Yandex danes verjetno ne uporablja čisto iste kode, ker se je v tem času že spremenila, je pa verjetno 90 odstotkov še vedno enake. Tudi Arsenij Šestakov je potrdil, da je koda pristna in aktualna.

V njej najdemo precej zanimivosti, denimo 1922 faktorjev, ki jih Yandex uporablja pri rangiranju iskalnih zadetkov. Čeprav v grobih obrisih delovanje algoritmov poznamo, je optimizacija strani zanje pravi posel, iskalniki pa ves čas spreminjajo algoritme, da jih ljudje ne bi začeli izigravati. Sedaj na primer vemo zagotovo, da so strani visoko uvrščene, če so nove, imajo organski promet, veliko unikatnih obiskovalcev, čim manj poševnic v naslovih, gostujejo na zaupanja vrednih strežnikih itd. To velja za Yandex, a ta se precej zgleduje po Googlu in osnovni principi so pri vseh velikanih enaki.