Deux mots sur UTF-8

Pour accompagner la lecture du cours...
  1. L'idée est de représenter
  2. Exemple : le caractère Unicode n° 945 est la lettre grecque alpha minuscule "α"
    945 = x03B1 ce qui s'écrit en binaire sur 2 octets 0000 0011 1011 0001.
    Les 11 derniers bits "011 1011 0001" se répartissent dans cet ordre à l'intérieur d'une matrice de deux octets
    à 11 places (5 + 6) 110xxxxx 10xxxxxx,
    ce qui donne finalement la représentation de "α" en UTF-8 : 11001110 10110001 = <CE><B1>
    Voyez l'article de Wikipedia en anglais pour en savoir davantage.

  3. Règle : le dernier chiffre hexadécimal du numéro Unicode d'un caractère se retrouve identique
    comme dernier chiffre de sa représentation en UTF-8.

  4. Un procédé pour déterminer "sans calcul" la représentation UTF-8 des caractères devanagari :