» »

Novi Unicode 7.0 prinaša tudi nerazvozlane pisave

Novi Unicode 7.0 prinaša tudi nerazvozlane pisave

Slo-Tech - Izšla je nova verzija standarda Unicode za zapis znakov, ki v verziji 7.0 podpira že več kot 110.000 znakov v več kot sto pisavah. Zadnja verzija je prinesla novih 2834 znakov, od katerih večina pripada 23 novim pisavam, ki so sedaj vključene v Unicode.

Ker Unicode podpira že praktično vse pisave v uporabi, se postavi vprašanje, kaj predstavlja največji količina novih pisav. Večinoma gre za stare pisave, ki dandanes niso več v uporabi.

Zanimivo je, da Unicode 7.0 po novem podpira tudi linearno A-pisavo, ki so jo uporabljali Minojci na Kreti in sploh še ni razvozlana. To je prva ali druga nerazvozlana pisava, ki je vključena v Unicode, odvisno od statusa znakov na disku iz Festosa, ki so že v Unicodu.

Novosti, ki ne sodijo v mrtve in redko uporabljane pisave, so novih 643 znakov iz wingdingsov in webdingsov. Resne spremembe pa so dopolnitve znakov v pisavah Severne Amerike, Kitajske, Indije in Afrike ter nekaj manjših dodatkov, kot so znak za rubelj in podobno. Celoten seznam je že precej obsežen.

9 komentarjev

ender ::

🖕
🕴
There are only two hard things in Computer Science:
cache invalidation, naming things and off-by-one errors.

Zgodovina sprememb…

  • spremenilo: ender ()

popster ::

hehe, meni tudi pokaze vprašajčke na linuxu ko pobiram z programom nicotine-plus.

ender ::

Na Linuxu mi oba znaka prikaže, ne prikaže mi jih pa na Windowsih.
There are only two hard things in Computer Science:
cache invalidation, naming things and off-by-one errors.

Gandalfar ::

Na OS X ne pokaze

popster ::

Na Linuxu mi oba znaka prikaže, ne prikaže mi jih pa na Windowsih.

mam ubuntu 14, lahko poveš kaj moram spremenit da bom mel unicode oziroma da bo prikazalo znaka?

StarMafijec ::

Koliko bytov sedaj zasede en Unicode znak?

Pa saj ne, da je za večino opravil ASCII - 1 byte povsem ok.

Mavrik ::

Unicode sam po sebi nič, ker je samo standard, ki mapira znake na številke. Koliko byteov zasedejo ti znaki pa je odvisno od kodiranja. Teh je pa več:

UTF-8 (najpogostejši): 1-4 bajte odvisno na kateri "ravnini" je znak.
Cel ASCII in večina ločil je 1 bajt, evropski posebni znaki (slovenski šumniki, cirilica, itd.) so na drugi ravnini in so 2 bajta, 3,4 so pa večinoma azijske pisave.

UTF-16: (uporabljan interno v Windowsih - starejša UCS2 verzija, Javi, .NET in še kje): 2-4 byte, odvisno od ravnine.
UTF-32: vedno 4 bajte.

Tako da v praksi ni več nobenega izgovora da ne bi uporabljal UTF-8 za prezentacijo podatkov v bazah in datotekah. Predvsem je treba s kovinsko palico pretepst vse ko še izvažajo (in shranjujejo) podatke v razne arhaične windows-1250 in cp852 zapise, ki so totalno nekompatibilni z modernim večjezičnim svetom.
The truth is rarely pure and never simple.

Zgodovina sprememb…

  • spremenil: Mavrik ()

SmeskoSnezak ::

In kaj tocno ta novice pomeni oz. predstavlja za navadnega uporabnika? Kako to namestis ali kaj/kako je s tem?
@ Pusti soncu v srce... @

ender ::

Mavrik je izjavil:

UTF-16: (uporabljan interno v Windowsih - starejša UCS2 verzija, Javi, .NET in še kje): 2-4 byte, odvisno od ravnine.
UTF-32: vedno 4 bajte.
Windows od Viste ali 7 naprej uporablja UTF-16 in ne več UCS-2.

Je pa pri dolžini znakov treba upoštevati še oznake za kombiniranje. Npr. č se lahko zapiše kot U+010D (č), ali pa kot U+0063,U+030C (c, ̌ - rezultat je vizualno identičen: č, le da se zdaj za zapis v UTF-8 uporabijo trije bajti).
There are only two hard things in Computer Science:
cache invalidation, naming things and off-by-one errors.


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

[php] PHP -> PDF šumniki

Oddelek: Programiranje
234933 (2093) mtya
»

Cirilica in druge "eksotične pisave"

Oddelek: Pomoč in nasveti
82274 (2205) ender
»

unicode in word 2003

Oddelek: Programska oprema
61416 (1353) dolenska
»

Notepad++ v3.0

Oddelek: Novice / Ostala programska oprema
334863 (3753) Khey
»

mirc - ne delajo šumniki!?

Oddelek: Programska oprema
61462 (1393) pivmik

Več podobnih tem