Compress @ Slo-Tech

Forum » Znanost in tehnologija »
Compress

Compress

Fave :: 25. feb 2011, 22:35

Razmišljam, kako najučinkoviteje kompresirati neko dato. Ideja je sledeča:

- datoteka se prebere in se za vse enake znake napravi sekvenca mest, ki jih zasedajo

Primer:

Znanost in tehnologija ...

z 1
n 2,4,10,15
a 3,22
o 5
....

- poišče se funkcijo(algoritem) za vsako sekvenco (to kar znata Eureqa ali Critticall)

- zapiše se komprimirana datoteka

Primer:

z 1
n 1.1917622+1.0221367*y*y-1.5289234*sin(0.8993634-1.0661639*y*y)-0.47005865*y 4
a 3,22
o 5
...

4 na koncu druge vrstice pove do kam naj šteje f(x) - za x = 1 to 4

Funkcija se zgenerira tako natančno, da z zaokroževanjem prideš do željenih rezultatov.
Če je funkcija daljša od sekvence, zapiši sekvenco.
Če funkcije ni mogoče najti, zapiši tako, ki pokrije največ vrednosti, nepokrite pa z novo funkcijo oz. sekvenco, če je ta krajša, ki je ločena s presledkom, itd...

Potem se pa novonastala kompresirana datoteka še zazipa

Ker nimam pojma kako delujejo drugi kompresi, prosim za mnenja?

My mind's a hyper tool that fixes everything.

technolog :: 25. feb 2011, 22:52

Tole kar si pogruntal je po domače crap oz. ne bo delovalo. Preveč je pomanjkljivosti.

1.
n 2,4,10,15

Bolj efektivno je petkrat zapisat n. Sploh pa kakršne koli funkcije zavzamejo še več.

2. Nimaš nobenih separatorjev, ne veš kje se funkcija konča in začne nova črka. Prav tako bi bla glede tega mal kriza, če bi moral stiskat tud številke, potem bi pa res vse pomešal.

Če hočeš dobit neko osnovno predstavo, kako poteka kompresija si poglej hufmanov algoritem oz. kodiranje.

Fave :: 25. feb 2011, 23:07

Ja, tule se jasno bolj splača zapisat, samo če pa imaš par mega enakih znakov razsutih po datoteki, se pa imho ne.

Sam format je prikazan principelno, končen zapis bi bil seveda drugačen.

Ne vem zakaj nebi delovalo?

My mind's a hyper tool that fixes everything.

technolog :: 25. feb 2011, 23:35

Ne! Tud če maš par 1000 znakov, morš imet potem polinom 1000 stopnje, pa vsak člen more imet eno grozno decimalno število spredaj. Pa več različnih vrednosti kot imaš, bolj natančna števila moraš imet pred členi.

Vem da maš format idejno, samo opozarjam te, da ti bodo separatorji pobral še dodatne bajte, potem se pa sploh ne bo splačalo.

Fave :: 26. feb 2011, 00:17

Eh, ne. Ni nujno, da je zapisan s polinomi. Si kdaj videl kakšne funkcije izpljune Eureqa?

Separatorji ne bodo pobrali nič več, kot je zgoraj napisano. V bistvu bi bili separatorji in markerji (ki bi povedali ali je funkcija ali sekvenca ali število do kam šteje) v enem.

My mind's a hyper tool that fixes everything.

technolog :: 26. feb 2011, 00:44

no pa mi zapiši potem recimo zaporedje 1, 10, 58, 83, 100, 101, 102, 110, 200, 210 z manj kot 10 bajti, če trdiš, da so funkcije taka čarovnija.

Zgodovina sprememb…

spremenil: technolog (26. feb 2011 ob 00:44)

Fave :: 26. feb 2011, 01:22

Ne trdim, da so čarovnija. Nekatere sekvence se lahko zapišejo zelo enostavno, nekatere pa ne.

Razmišljam pa to, da bi imel na internetu look up tabelo vseh možnih sekvenc do recimo 10^12. Vsaka bi bila oštevilčena. Zapis bi bil enak zgornjemu, le namesto funkcije bi bila zaporedna številka sekvence v look up tabeli. Ker drugače bi zadeva predolgo trajala.

My mind's a hyper tool that fixes everything.

overlord_tm :: 26. feb 2011, 01:41

Razmišljam pa to, da bi imel na internetu look up tabelo vseh možnih sekvenc do recimo 10^12

Good luck with that ;)

Glede kompresije, Shannon je cudezna beseda, google it :)

Thomas :: 26. feb 2011, 08:05

Sekvenca sama, njena formula, ni zastonj, gledano z vidika števila potrebnih bitov. Včasih sicer je, precej ceneje, kakor pa direktni zapis, v splošnem pa ne.

Vprašanje je, kaj je s človeku uporabnimi datami. Te morda celo imajo (večkrat) skrite vzorce, ki nam omogočajo, da jih zapišemo na učinkovit način.

Se ne ve. Treba bi bilo probat bruta forca, šele potem bi zares vedeli.

Man muss immer generalisieren - Carl Jacobi

technolog :: 26. feb 2011, 10:24

Fave je 26. feb 2011 ob 01:22 izjavil:

Ne trdim, da so čarovnija. Nekatere sekvence se lahko zapišejo zelo enostavno, nekatere pa ne.

Razmišljam pa to, da bi imel na internetu look up tabelo vseh možnih sekvenc do recimo 10^12. Vsaka bi bila oštevilčena. Zapis bi bil enak zgornjemu, le namesto funkcije bi bila zaporedna številka sekvence v look up tabeli. Ker drugače bi zadeva predolgo trajala.

Ne razmišljaš v redu.

Vseh možnih celoštevilkih sekvenc do 10^12 pa je 2^(10^12)-1. In zapis enega tega IDja zaporedja bi te koštal po par giga.

Sekvenca sama, njena formula, ni zastonj, gledano z vidika števila potrebnih bitov. Včasih sicer je, precej ceneje, kakor pa direktni zapis, v splošnem pa ne.

Oz. kar reciva da je zelo redko krajša, ponavadi pa kar konkretno daljša.

WarpedGone :: 26. feb 2011, 10:40

fave, proof is in the puding.
Poskusi sprogramirat prototipni kompres in v praksi preveri svojo idejo.

Men se v glavi že dolgo kuha kompresija z implicitnim privzetkom - pri kompresiji se del informacije sploh ne zapiše v datoteko ampak je ta privzeto znana uporabniku kompresirane datoteke. Poleg kompresije je hkrati to tudi tako švoh/crap šifriranje.

Recimo, da svojo datoteko poiščeš v nekem diskretnem zaporedju cifer 0..9 al pa števil 0..254, ki so rezultat neke funkcije. Za katero funkcijo točno gre, v sam kompres ne vpišeš ampak vpišeš samo začetno mesto Z in dolžino datoteke D. Detajli funkcije so tuki tisti implicitni privzetek.

Varianta je tut, da maš na razpolago N vnaprej določenih različnih funkcij, ki generirajo zaporedja ki so "pogosteje vsebujejo" določene tipe datotek. Tuki poleg Z in D v kompres vpišeš še id te v naprej določene funkcije.

Je pa res, da si ne predstavljam še praktičnega algoritma kompresije na ta način. Obstoječe zaporedne mašine so v principu neprimerne za takšno opravilo.

Zbogom in hvala za vse ribe

Fave :: 26. feb 2011, 11:56

technolog je 26. feb 2011 ob 10:24 izjavil:

Ne razmišljaš v redu.

Vseh možnih celoštevilkih sekvenc do 10^12 pa je 2^(10^12)-1. In zapis enega tega IDja zaporedja bi te koštal po par giga.

Saj bi ID lahko zapisal v 256-tiškem sistemu.

My mind's a hyper tool that fixes everything.

WarpedGone :: 26. feb 2011, 12:04

Katerega morš na koncu pretvorit v binarnega.

Zbogom in hvala za vse ribe

Fave :: 26. feb 2011, 12:17

122 - dec (3 bajti)
7A - hex (2 bajta)
z - 256iško (1 bajt)

Kje razmišljam narobe?

My mind's a hyper tool that fixes everything.

WarpedGone :: 26. feb 2011, 12:22

Razmišljaš prav a ne dovolj daleč.
122 v decimalnem zapisu zahteva tri bajte, ker imaš na vsakem mestu 256 možnih različnih znakov, "tebi uporabnih" je pa samo 10.
7A v hex obliki pokuri le dva bajta še, ker izmer 256 možnih na vsakem mestu ponucaš 16 različnih.
z ponuca samo en bajt ker "izkoristiš" vseh 256 možnih.

Ko razmišljaš o kompresiji moraš razmišljat v svoji temeljni abecedi, ki pa je binarna. 256-iški sistem zahteva 256 različnih simobolov. Teh v obstoječih mašinah nimaš, imaš le dva.

Zbogom in hvala za vse ribe

technolog :: 26. feb 2011, 12:31

No, naj si avtor osnove razpuca, potem pa razmišlja o kakih kompresijah.

lymph :: 26. feb 2011, 17:51

Kaj pa če vzamemo neko številko, ki ima neponavljujoče cifre.. recimo PI.

Vsakič, preden kompresiramo fajl, zaženemo kalkulator PI in zgeneriramo file velik 100GB ter pretvorimo v 0 in 1ke. Po tem pa vzamemo recimo prvih 10 cifer iz fajla, ki ga kompresiramo: pr: 0100010101 in poiščemo kje se ta sekvenca nahaja v našem PIju. Nato pa namesto zaporedja zapišemo koordinato te sekvence.

Zdej edino ne vem, kako velik bi mogel biti naš PI file, da bi lahko poiskali dovolj velike kose, da bi se taka kompresija splačala... dolžina koordinate VS iskanega zaporedja.

Pač osnova bi bila, pa to je moja blodnja - ne vem če to tudi stoji, da je v PIju ŽE skrito vsako zaporedje... samo koordinate le tega rabimo.

"Belief is immune to counter example."

technolog :: 26. feb 2011, 17:55

Ne bo šlo skozi..

Uštel si se na točki, ker bo lokacija (po tvoje "koordinate") sekvence skoraj vedno zasedla več bajtov kot zaporedje samo.

Jaz sem pred kratkim dobil idejo za kompresijo, ko imaš predefiniran seznam vseh slovenskih besed, pa potem zapisuješ samo zaporedne številke besed... To pa bi šlo! Pomankljivost pa je ta, da bi bilo treba izumit še nek escape sequence za kratice in ostale besede, ki jih ni na seznamu.

Zgodovina sprememb…

spremenil: technolog (26. feb 2011 ob 17:59)

Thomas :: 26. feb 2011, 20:28

Kar se tiče kompresa s PI, distanca do tapravega stringa, zapisana binarno, je približno enako dolga kot tisti string. "1010101010" mora biti kakšnih 1024 bitov daleč. Neka random sekvenca se ne sme kaj bistveno podaljšati v tem načinu zapisovanja, ali pa Pi ni normalno število.

Man muss immer generalisieren - Carl Jacobi

technolog :: 26. feb 2011, 20:37

Tomas, plus še to, da moraš poleg odmika povedat še dolžino.

Thomas :: 26. feb 2011, 20:42

Kar se tiče kompresiranja s sekvencami, velja isto. Preveč podaljšati nekega random binarnega stringa, z zanj optimalno sekvenco ali funkcijo, ne bi smel. Katere bi pa bistveno skrajšal in koliko bi jih skrajšal, je pa everybody's guess.

moraš poleg odmika povedat še dolžino.

Right. Ampak dolžina je majhna napram temu. Dvojiški logaritem. Dvajset bitov za megabit velik string. Mogoče 40, če upoštevaš vso režijo.

Man muss immer generalisieren - Carl Jacobi

Thomas :: 26. feb 2011, 20:57

Tole je lep primer, kaj ti naredi vsega nekaj byteov. Nista to dva realna obraza, ampak zgubno skompresirana. Kljub zgubi večine informacije, je ostane dovolj.

Implicitna informacija pri prepoznavanju človeških obrazov, je pri ljudeh odločilna.

Man muss immer generalisieren - Carl Jacobi

Zgodovina sprememb…

zavarovalo slike: gzibret (28. feb 2011 ob 10:07)

boogie_xlr :: 27. feb 2011, 21:03

Prvo pa zadnjo črko v besedi ohranimo, vmesne črke pa uredimo in damo v dictionary. To bi lahko bil primer lossy kompresiranega a še vedno berljivega teksta, kot je to dokazal nek profesor na Cambriški univerzi.

WarpedGone :: 27. feb 2011, 21:10

Huffman vseeno zmaga, grem stavit :)

Zbogom in hvala za vse ribe

Rokm :: 27. feb 2011, 21:15

Bolj kot Huffmanov kod se teoretični meji približa Aritmetični kod.

Fave :: 28. feb 2011, 10:08

technolog je 26. feb 2011 ob 10:24 izjavil:

Vseh možnih celoštevilkih sekvenc do 10^12 pa je 2^(10^12)-1. In zapis enega tega IDja zaporedja bi te koštal po par giga.

Saj bi lahko ID zaporedja zapisal kot (2^n)+x ali nekaj podobnega, pač kar se najbolj splača.

My mind's a hyper tool that fixes everything.

WarpedGone :: 28. feb 2011, 11:48

Vsak zapis se izvede z neko abecedo. Zapis (2^n)+x predstavlja ID zaporedja v ASCII abecedi. Ker lahko v tej abecedi zapišeš tudi "neveljvane" IDje, ki ne generirajo veljavnega zaporedja imaš v abecedi nekaj redundance, kar pomeni da tako zapisan ID pobere več bitov, kot bi blo treba.

Še enkrat osnovni nasvet: poskusi sprogramirat nek kompresor in nato naštudiraj zakaj je rezultat takšen kot bo, glej velikost izhodne datoteke v bajtih. Tako boš skapiral osnovne probleme, tkole na suho preveč stvari narobe razumeš.

Zbogom in hvala za vse ribe

Fave :: 1. mar 2011, 16:17

Pravijo, da življenje podaljšuje to, da se vsaj enkrat na dan osmešiš....jaz sem si ga v preteklih dneh kar lepo podaljšal ;((

My mind's a hyper tool that fixes everything.

WarpedGone :: 1. mar 2011, 18:35

Ne sekiraj se, še vedno krepko zaostajaš za mano ;)

Zbogom in hvala za vse ribe

Thomas :: 1. mar 2011, 20:28

Ali pa za mano. Keep going in razmišljaj na svoj način naprej, Fave!

Man muss immer generalisieren - Carl Jacobi

nevone :: 1. mar 2011, 20:33

Tako je!

Saj veš tisto: En "neumen" lahko več vpraša kot 10 pametnih odgovori.

(Ali pa tisto: En pameten lahko več odgovori kot 10 "neumnih" vpraša.)

o+ nevone

Either we will eat the Space or Space will eat us.

Fave :: 1. mar 2011, 20:44

Hehe...ste same face tle gor

My mind's a hyper tool that fixes everything.

technolog :: 2. mar 2011, 20:23

Nevone, to je pa eno hudo protislovje :D

nevone :: 2. mar 2011, 20:50

Hehe ... ni ... ker gre v vsakem primeru za različne osebe ... hehe

o+ nevone

Either we will eat the Space or Space will eat us.

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Pomoč pri programiranju z javo leško Oddelek: Programiranje	20	4269 (3196)	milc 19. okt 2012 15:51:54
»	Množica celih števil (strani: 1 2 ) Fave Oddelek: Znanost in tehnologija	72	6938 (4045)	Thomas 5. maj 2010 18:03:58
»	[Naloga] : Max kompresija testne datoteke StratOS Oddelek: Programiranje	34	3486 (2410)	StratOS 3. avg 2008 21:06:49
»	Kompres proti virusu HIV (strani: 1 2 ) Thomas Oddelek: Novice / Znanost in tehnologija	85	9720 (8414)	Thomas 28. feb 2005 08:18:53
»	popolno naklucje (strani: 1 2 ) lymph Oddelek: Znanost in tehnologija	69	7823 (6168)	Thomas 20. apr 2004 16:04:30

Več podobnih tem

Forum » Znanost in tehnologija » Compress

Compress

Compress

Fave :: 25. feb 2011, 22:35

technolog :: 25. feb 2011, 22:52

Fave :: 25. feb 2011, 23:07

technolog :: 25. feb 2011, 23:35

Fave :: 26. feb 2011, 00:17

technolog :: 26. feb 2011, 00:44

Fave :: 26. feb 2011, 01:22

overlord_tm :: 26. feb 2011, 01:41

Thomas :: 26. feb 2011, 08:05

technolog :: 26. feb 2011, 10:24

WarpedGone :: 26. feb 2011, 10:40

Fave :: 26. feb 2011, 11:56

WarpedGone :: 26. feb 2011, 12:04

Fave :: 26. feb 2011, 12:17

WarpedGone :: 26. feb 2011, 12:22

technolog :: 26. feb 2011, 12:31

lymph :: 26. feb 2011, 17:51

technolog :: 26. feb 2011, 17:55

Thomas :: 26. feb 2011, 20:28

technolog :: 26. feb 2011, 20:37

Thomas :: 26. feb 2011, 20:42

Thomas :: 26. feb 2011, 20:57

boogie_xlr :: 27. feb 2011, 21:03

WarpedGone :: 27. feb 2011, 21:10

Rokm :: 27. feb 2011, 21:15

Fave :: 28. feb 2011, 10:08

WarpedGone :: 28. feb 2011, 11:48

Fave :: 1. mar 2011, 16:17

WarpedGone :: 1. mar 2011, 18:35

Thomas :: 1. mar 2011, 20:28

nevone :: 1. mar 2011, 20:33

Fave :: 1. mar 2011, 20:44

technolog :: 2. mar 2011, 20:23

nevone :: 2. mar 2011, 20:50

Vredno ogleda ...

Pomoč pri programiranju z javo

Množica celih števil (strani: 1 2 )

[Naloga] : Max kompresija testne datoteke

Kompres proti virusu HIV (strani: 1 2 )

popolno naklucje (strani: 1 2 )

Forum » Znanost in tehnologija »
Compress