La devanâgari en UTF-8

Deux mots sur UTF-8

Pour accompagner la lecture du cours n°4...

Voyez l'article de Wikipedia en anglais pour en savoir davantage.
Un procédé pour déterminer "sans calcul" la représentation UTF-8 des caractères devanâgari :
- Ils ont des numéros allant de 2304 à 2431 (en décimal), soit x0900 à 097F (en hexa).
  Leur premier chiffre hexa est donc toujours 0, ce qui signifie que
  seuls les 12 derniers bits sont "utiles" pour les distinguer.
- Il s'ensuit que :
  tous les caractères nâgari en UTF-8 sont de la forme <E0> <Ax> <yz>.
- où (en comptant 3 quartets non nuls = 12 bits)
  - x = les deux derniers bits du premier quartet (non nul) + les deux premiers du deuxième quartet
  - y = 10 (de la matrice) + les deux derniers bits du deuxième quartet
  - z est exactement le 3ème quartet.
- Exemple : DEVANAGARI LETTER VOCALIC R, n° 2315 = x090B
  en binaire 00001001 00001011
  squelette 1110aaaa 10bbbbbb 10cccccc
  décomposition 4+6+6 : 0000 + 1001 00 + 00 1011
  résultat : 11100000 10100100 10001011 = <E0><A4><8B>