Pages Web mutlilingues avec UTF-8

Exemples turcs, indiens et arabes

Jean-François Perrot

Commentaires d'un informaticien sur le cours de Michel Jacobson à l'INaLCO du vendredi 5 novembre 2004
sur le codage des caractères.

  1. Observation des mécanismes fondamentaux (l'informatique sous-jacente)
  2. Application 1 : des pages franco-turques
  3. Application 2 : traitement des ligatures de l'écriture devanâgari
  4. Application 3 : traitement des différentes formes des caractères arabes et de leur combinaison

A. Mécanismes

  1. Philosophie de la mécanique


  2. Moyens d'observation

    Comment observer la réalité des processus d'écriture et de lecture ?



B. Un exemple de bilinguisme franco-turc : problème & solution

  1. Problème à traiter

  2. Solution (il y en a certainement d'autres !)




C. Mise en œuvre de la devanâgari : traitement des ligatures

  1. Le problème

  2. La solution

  3. Illustrations

  4. Démonstration...

    Écrire dans un éditeur comme TextEdit : on voit les ligatures se former à l'écran...




D. Formes des caractères arabes

  1. Rappel : chaque lettre de l'alphabet arabe peut revêtir en principe quatre formes,
    suivant qu'elle isolée, initiale, médiale ou finale.
    Exemple 1 : les quatre formes de la lettre ha (x0647) :

    Exemple 2 : les quatre formes de la lettre ayn (x0639) :

  2. Dans le répertoire Unicode, il n'y a qu'un code par caractère, et non pas quatre correspondant aux quatre formes.
    Les formes liées sont engendrées par le logiciel de visualisation.

  3. Les caractères sont toujours écrits de gauche à droite dans le fichier, y compris les caractères arabes.
    C'est le logiciel de visualisation qui les affiche de droite à gauche (bidirectional algorithm).

  4. En UTF-8 les caractères arabes sont codés sur 2 octets (comme les lettres accentuées françaises),
    tandis que les caractères indiens (devanâgari) sont codés sur 3 octets, comme on a pu le voir.

  5. Exemple1 (allez voir le texte-source !) : عـنترة بن شداد
    Exemple2 (idem) : &# x0627;&# x0644;&# x0645;&# x064F;&# x0639;&# x064E;&# x0644;&# x0651;&# x064E;&# x0642;&# x064E;&# x0627;&# x062A;
    À votre avis, pourquoi ces blancs bizarres entre "&#" et "x...." ?

    Nombreux exemples dans la page de démonstration "Qu'est-ce qu'Unicode" en arabe.
    ainsi que dans une excellente introduction à la littérature arabe (en espagnol).

  6. Adaptation au persan ( فارسی fârsi)
    L'écriture du persan fait appel à trois lettres supplémentaires, le pé : پ (x067E), le tché : چ (x0686) et le jé : ژ (x0698),
    qui suivent les mêmes règles que les autres.
    En outre, elle emploie en position finale un ya sans points : ی (x06CC),
    qu'il ne faut pas confondre aec l'alif maksura de l'arabe : ى (x0649).

    Nombreux exemples dans la page de démonstration "Qu'est-ce qu'Unicode" en persan.
    Pour quelques URL de sites proposant des textes persans, voyez mes notes sur Khayyâm.