Deux mots sur UTF-8
Pour accompagner la lecture du cours n°4...
- Voyez l'article de Wikipedia en anglais pour en savoir davantage.
- Un procédé pour déterminer "sans calcul" la représentation UTF-8 des caractères devanâgari :
- Ils ont des numéros allant de 2304 à 2431 (en décimal), soit x0900 à 097F (en hexa).
Leur premier chiffre hexa est donc toujours 0, ce qui signifie que
seuls les 12 derniers bits sont "utiles" pour les distinguer.
- Il s'ensuit que :
tous les caractères nâgari en UTF-8 sont de la forme <E0> <Ax> <yz>.
- où (en comptant 3 quartets non nuls = 12 bits)
- x = les deux derniers bits du premier quartet (non nul) + les deux premiers du deuxième quartet
- y = 10 (de la matrice) + les deux derniers bits du deuxième quartet
- z est exactement le 3ème quartet.
- Exemple : DEVANAGARI LETTER VOCALIC R, n° 2315 = x090B
en binaire 00001001 00001011
squelette 1110aaaa 10bbbbbb 10cccccc
décomposition 4+6+6 : 0000 + 1001 00 + 00 1011
résultat : 11100000 10100100 10001011
= <E0><A4><8B>