Nov rekord v stiskanju podatkov z Wikipedije

Matej Huš

12. feb 2024 ob 08:02:24

Kaido Orav je najnovejši prejemnik Hutterjeve nagrade, ki jo Marcus Hutter iz DeepMinda podeljuje za najboljšo kompresijo človeškega znanja. Hutter je pripravil gigabajt veliko datoteko, ki vsebuje članke z Wikipedije in predstavlja nekakšen odsev dostopnega znanja, ki bi ga človek zmogel prebrati v celem življenju. Medtem ko klasičen ZIP datoteko stisne na približno tristo megabajtov, je najnovejši rekord 112 MB.

Kdor se poteguje za nagrado, mora prispevati program, ki implementira algoritem za stiskanje, ter stisnjeno datoteko. Če je njuna skupna velikost manjša od aktualnega rekorda, ki znaša 112 MB, dobi nagrado. Skupna nagrada znaša pol milijona evrov, izplača pa se tolikšen odstotek, za kolikor je novi rekord izboljšal starega. Pogoj je, da algoritem stisnjeno datoteko nazaj razpakira v originalu identično. Natečaj poteka od leta 2020.

Pred razpisom nagrade je bil rekord 116 MB, nato pa so nagrajenci mejo počasi potiskali proti današnjim 112 MB. Obstaja še druga verzija natečaja, kjer se stiska nekoliko manjša, originalno 100 MB velika datoteka, ki takisto vsebuje članke z Wikipedije. Ta natečaj se je začel že leta 2006. Tam ima rekord iz leta 2017 še vedno Alexander Rhatushnyak, ki jo je stisnil na 15 MB.

Dodatni pogoji so še, da se algoritem na primeru izvede v manj kot 50 urah na enem jedru, porabi manj kot 10 GB pomnilnika in da mu zadostuje 100 GB prostora na disku. Meje je pač treba postaviti.