» »

Nov rekord v stiskanju podatkov z Wikipedije

Nov rekord v stiskanju podatkov z Wikipedije

Slo-Tech - Kaido Orav je najnovejši prejemnik Hutterjeve nagrade, ki jo Marcus Hutter iz DeepMinda podeljuje za najboljšo kompresijo človeškega znanja. Hutter je pripravil gigabajt veliko datoteko, ki vsebuje članke z Wikipedije in predstavlja nekakšen odsev dostopnega znanja, ki bi ga človek zmogel prebrati v celem življenju. Medtem ko klasičen ZIP datoteko stisne na približno tristo megabajtov, je najnovejši rekord 112 MB.

Kdor se poteguje za nagrado, mora prispevati program, ki implementira algoritem za stiskanje, ter stisnjeno datoteko. Če je njuna skupna velikost manjša od aktualnega rekorda, ki znaša 112 MB, dobi nagrado. Skupna nagrada znaša pol milijona evrov, izplača pa se tolikšen odstotek, za kolikor je novi rekord izboljšal starega. Pogoj je, da algoritem stisnjeno datoteko nazaj razpakira v originalu identično. Natečaj poteka od leta 2020.

Pred razpisom nagrade je bil rekord 116 MB, nato pa so nagrajenci mejo počasi potiskali proti današnjim 112 MB. Obstaja še druga verzija natečaja, kjer se stiska nekoliko manjša, originalno 100 MB velika datoteka, ki takisto vsebuje članke z Wikipedije. Ta natečaj se je začel že leta 2006. Tam ima rekord iz leta 2017 še vedno Alexander Rhatushnyak, ki jo je stisnil na 15 MB.

Dodatni pogoji so še, da se algoritem na primeru izvede v manj kot 50 urah na enem jedru, porabi manj kot 10 GB pomnilnika in da mu zadostuje 100 GB prostora na disku. Meje je pač treba postaviti.

7 komentarjev

sbawe64 ::

Na yt je predavanje od Alexander Rhatushnyak (5* dobil nagrado)




Celih 1396 ogledov od 15.8 2018

Iz komentarjev:
661 views. 12/04/2021
980 as of 20/01/2022
1084 as of 31/07/2022


Marcus Hutter iz DeepMinda (Google).
2020 is new 1984
Corona World order

Zgodovina sprememb…

  • spremenilo: sbawe64 ()

WhiteAngel ::

Upam, da je omejena tudi velikost algoritma za kompresijo. Ker če ni, potem enostavno definiram abecedo na naslednji način: en znak A, ki se preslika v -> Wikipediino datoteko. Abeceda je že zapečena v moj algoritem. Done. Velikost mojega zakompresiranega fajla je en bit: A. Zanemarljiva vmesna poraba pomnilnika in diska.

/bizarnost na stran

A kdo ve, koliko je teoretični minimum velikosti zakompresirane datoteke? (entropija)

Zgodovina sprememb…

Ales ::

WhiteAngel je izjavil:

Upam, da je omejena tudi velikost algoritma za kompresijo. Ker če ni, potem enostavno ...

Ampak:

Kdor se poteguje za nagrado, mora prispevati program, ki implementira algoritem za stiskanje, ter stisnjeno datoteko. Če je njuna skupna velikost manjša od...

Kayzon ::

Upam da je tudi omenjeno da wikipedia ni kredibilen vir informacij.

DamijanD ::

Velikost algoritma/programa je omejena.

Miki N ::

Pravijo, da dober algoritem za kompresijo ni problem - problem je potem nazaj dekompresirati!

7982884e ::

WhiteAngel je izjavil:

Upam, da je omejena tudi velikost algoritma za kompresijo. Ker če ni, potem enostavno definiram abecedo na naslednji način: en znak A, ki se preslika v -> Wikipediino datoteko. Abeceda je že zapečena v moj algoritem. Done. Velikost mojega zakompresiranega fajla je en bit: A. Zanemarljiva vmesna poraba pomnilnika in diska.

/bizarnost na stran

A kdo ve, koliko je teoretični minimum velikosti zakompresirane datoteke? (entropija)

seveda to ne gre. tvoj algoritem bo zelo velik.


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Nov rekord v stiskanju podatkov z Wikipedije

Oddelek: Novice / Znanost in tehnologija
73537 (1218) 7982884e
»

Stiskanje datotek (strani: 1 2 )

Oddelek: Pomoč in nasveti
5412196 (6406) Oberyn
»

Program za pridobitev izbrisanih datotek

Oddelek: Programska oprema
356940 (6397) T_F_7
»

Packing (strani: 1 2 3 )

Oddelek: Znanost in tehnologija
1239338 (5145) Thomas
»

[Naloga] : Max kompresija testne datoteke

Oddelek: Programiranje
343109 (2033) StratOS

Več podobnih tem