Slo-Tech - Izšla je nova verzija standarda Unicode za zapis znakov, ki v verziji 7.0 podpira že več kot 110.000 znakov v več kot sto pisavah. Zadnja verzija je prinesla novih 2834 znakov, od katerih večina pripada 23 novim pisavam, ki so sedaj vključene v Unicode.
Ker Unicode podpira že praktično vse pisave v uporabi, se postavi vprašanje, kaj predstavlja največji količina novih pisav. Večinoma gre za stare pisave, ki dandanes niso več v uporabi.
Zanimivo je, da Unicode 7.0 po novem podpira tudi linearno A-pisavo, ki so jo uporabljali Minojci na Kreti in sploh še ni razvozlana. To je prva ali druga nerazvozlana pisava, ki je vključena v Unicode, odvisno od statusa znakov na disku iz Festosa, ki so že v Unicodu.
Novosti, ki ne sodijo v mrtve in redko uporabljane pisave, so novih 643 znakov iz wingdingsov in webdingsov. Resne spremembe pa so dopolnitve znakov v pisavah Severne Amerike, Kitajske, Indije in Afrike ter nekaj manjših dodatkov, kot so znak za rubelj in podobno. Celoten seznam je že precej obsežen.
Novice » Ostale najave » Novi Unicode 7.0 prinaša tudi nerazvozlane pisave
ender ::
🖕
🕴
🕴
There are only two hard things in Computer Science:
cache invalidation, naming things and off-by-one errors.
cache invalidation, naming things and off-by-one errors.
Zgodovina sprememb…
- spremenilo: ender ()
ender ::
Na Linuxu mi oba znaka prikaže, ne prikaže mi jih pa na Windowsih.
There are only two hard things in Computer Science:
cache invalidation, naming things and off-by-one errors.
cache invalidation, naming things and off-by-one errors.
popster ::
Na Linuxu mi oba znaka prikaže, ne prikaže mi jih pa na Windowsih.
mam ubuntu 14, lahko poveš kaj moram spremenit da bom mel unicode oziroma da bo prikazalo znaka?
StarMafijec ::
Koliko bytov sedaj zasede en Unicode znak?
Pa saj ne, da je za večino opravil ASCII - 1 byte povsem ok.
Pa saj ne, da je za večino opravil ASCII - 1 byte povsem ok.
Mavrik ::
Unicode sam po sebi nič, ker je samo standard, ki mapira znake na številke. Koliko byteov zasedejo ti znaki pa je odvisno od kodiranja. Teh je pa več:
UTF-8 (najpogostejši): 1-4 bajte odvisno na kateri "ravnini" je znak.
Cel ASCII in večina ločil je 1 bajt, evropski posebni znaki (slovenski šumniki, cirilica, itd.) so na drugi ravnini in so 2 bajta, 3,4 so pa večinoma azijske pisave.
UTF-16: (uporabljan interno v Windowsih - starejša UCS2 verzija, Javi, .NET in še kje): 2-4 byte, odvisno od ravnine.
UTF-32: vedno 4 bajte.
Tako da v praksi ni več nobenega izgovora da ne bi uporabljal UTF-8 za prezentacijo podatkov v bazah in datotekah. Predvsem je treba s kovinsko palico pretepst vse ko še izvažajo (in shranjujejo) podatke v razne arhaične windows-1250 in cp852 zapise, ki so totalno nekompatibilni z modernim večjezičnim svetom.
UTF-8 (najpogostejši): 1-4 bajte odvisno na kateri "ravnini" je znak.
Cel ASCII in večina ločil je 1 bajt, evropski posebni znaki (slovenski šumniki, cirilica, itd.) so na drugi ravnini in so 2 bajta, 3,4 so pa večinoma azijske pisave.
UTF-16: (uporabljan interno v Windowsih - starejša UCS2 verzija, Javi, .NET in še kje): 2-4 byte, odvisno od ravnine.
UTF-32: vedno 4 bajte.
Tako da v praksi ni več nobenega izgovora da ne bi uporabljal UTF-8 za prezentacijo podatkov v bazah in datotekah. Predvsem je treba s kovinsko palico pretepst vse ko še izvažajo (in shranjujejo) podatke v razne arhaične windows-1250 in cp852 zapise, ki so totalno nekompatibilni z modernim večjezičnim svetom.
The truth is rarely pure and never simple.
Zgodovina sprememb…
- spremenil: Mavrik ()
SmeskoSnezak ::
In kaj tocno ta novice pomeni oz. predstavlja za navadnega uporabnika? Kako to namestis ali kaj/kako je s tem?
@ Pusti soncu v srce... @
ender ::
UTF-16: (uporabljan interno v Windowsih - starejša UCS2 verzija, Javi, .NET in še kje): 2-4 byte, odvisno od ravnine.Windows od Viste ali 7 naprej uporablja UTF-16 in ne več UCS-2.
UTF-32: vedno 4 bajte.
Je pa pri dolžini znakov treba upoštevati še oznake za kombiniranje. Npr. č se lahko zapiše kot U+010D (č), ali pa kot U+0063,U+030C (c, ̌ - rezultat je vizualno identičen: č, le da se zdaj za zapis v UTF-8 uporabijo trije bajti).
There are only two hard things in Computer Science:
cache invalidation, naming things and off-by-one errors.
cache invalidation, naming things and off-by-one errors.
Vredno ogleda ...
Tema | Ogledi | Zadnje sporočilo | |
---|---|---|---|
Tema | Ogledi | Zadnje sporočilo | |
» | [php] PHP -> PDF šumnikiOddelek: Programiranje | 4986 (2146) | mtya |
» | Cirilica in druge "eksotične pisave"Oddelek: Pomoč in nasveti | 2309 (2240) | ender |
» | unicode in word 2003Oddelek: Programska oprema | 1456 (1393) | dolenska |
» | Notepad++ v3.0Oddelek: Novice / Ostala programska oprema | 4893 (3783) | Khey |
» | mirc - ne delajo šumniki!?Oddelek: Programska oprema | 1481 (1412) | pivmik |