Unicode 8.0.0 prinaša več kot sedem tisoč novih znakov

Matej Huš

20. jun 2015 ob 11:50:10

Izšla je nova verzija standarda Unicode, ki se uporablja za enoten zapis znakov vseh jezikov na svetu. Verzija 8.0.0 prinaša 7.716 novih znakov, ki dopolnjujejo zlasti kitajski, japonski in korejski sistem zapisa. Druge novosti so še dodatni mali znaki za pisavo Cherokeejev ter posamezne dopolnitve afriških pisav. Nenazadnje so dodali tudi 41 novih smeškov.

Unicode je standard, ki vsakemu znaku pripiše enolično številko. Dejansko kodiranje je različno, daleč najpogosteje pa se uporablja de facto standard UTF-8, ki je zamenjal ASCII in razne stare omejene standarde, npr. CP852 ali Windows-1250. UTF-8 kodira znake tako, da je dolžina znaka od 1 do 4 bajtov, odvisno od pozicije znaka v kodni tabeli. To je bilo nujno za zagotavljanje združljivosti z ASCII in varčevanje s prostorom (kako deluje trik preslikave na ravnine, kaže spodnji videoposnetek). UTF-16 in UTF-32 sta druga načina kodiranja, kjer v prvem potrebujemo 2-4 bajte, v drugem pa vedno 4. Internet je v glavnem UTF-8, UTF-16 najdemo na primer interno v Windows, UTF-32 pa je sorazmerno redek, razen v nišni uporabi.

Unicode lahko teoretično vsebuje 1.114.112 znakov, ki so razporejeni po 17 ravninah. Trenutno je dodeljenih okrog 10 odstotkov vseh kapacitet, vse na prvih dveh ravninah, zato nam prostora še lep čas ne bo zmanjkalo. Ker gre svet v čedalje večjo standardizacijo in poenotenje, bo Unicode verjetno ostal standard še dolga desetletja.