L'écriture vietnamienne Nôm en Unicode

Supplément au Cours PLURITAL n° 4 (24 novembre 2009)

Jean-François Perrot

  1. Contexte
  2. Exemples
  3. Nouvelles questions
  4. Investigations

  1. Contexte

    Le vietnamien s'écrit aujourd'hui avec un alphabet à base latine appelé quốc ngữ (= langue nationale -
    abréviation courante de l'expression plus correcte chữ quốc ngữ  = caractères de la langue nationale).
    Au cours de l'Histoire, les Vietnamiens ont d'abord écrit du chinois classique (Hán tự ou chữ Hán).
    Ils ont ensuite (à partir du XIIIème siècle) développé un jeu de caractères supplémentaires, suivant le même format que les caractères chinois,
    pour noter leur propre langue.
    Ces caractères sont appelés chữ Nôm. Ils ont servi à écrire toute la littérature vietnamienne jusqu'à la colonisation française,
    à la fin du XIXème siècle.
    Voyez
    Wikipedia pour plus de détails.
    Même si cette littérature est aujourd'hui lue en transcription quốc ngữ, on commence à se préoccuper d'éditer les textes classiques
    dans leur écriture d'origine sur support électronique.

    L'écriture nôm utilise les caractères chinois traditionnels, avec éventuellement des lectures différentes suivant le contexte,
    et aussi de nombreux "néo-caractères" qui ne figurent pas dans le répertoire classique, et qui échappent donc au catalogue Unicode initial.
    Certains d'entre eux ont été répertoriés et sont entrés depuis la version 3.0 dans le deuxième plan supplémentaire,
    bloc CJK Unified Ideographs Extension B, plage 20000–2A6DF, qualifié de Rare, historic.

    Wikipédia présente cette plage en 11 pages dont voici la première : http://fr.wikipedia.org/wiki/Table_des_caractères_Unicode/U20000
    (les suivantes sont à la même adresse, avec U21000, U22000, etc.)

    En outre, des polices incluant cette plage sont disponibles (sur SourceForge), on peut donc effectivement lire et écrire du nôm en UTF-8,
    et non plus seulement avec des photos ou du pdf comme c'était la règle jusqu'à une date récente.
  2. Exemples

  3. Nouvelles questions

    1. Étant donné un texte écrit en nôm, quels caractères relèvent de l'extension, et lesquels sont "classiques" ?
      En effet, bien savant est celui qui peut dire à coup sûr : Ceci n'est pas un caractère chinois classique !

    2. Dans les textes en nôm trouvés sur le réseau, on constate assez souvent que certains caractères ne sont pas affichés par le navigateur,
      ni d'ailleurs par un éditeur de textes. Quelle en est la cause ?
      En allant regarder les octets, je constate que
      • ces caractères ont des numéros Unicode qui relèvent d'une zone privée, entre U+E000 et U+F8FF ;
      • avec la palette de caractères ou avec l'outil UnicodeChecker, je constate que les polices HAN NOM
        téléchargées de SourceForge contiennent des glyphes pour ces numéros,
        et que ces glyphes sont effectivement ceux qui sont attestés par ailleurs (pdf, images, etc) ;
      • mais apparemment le caractère "privé" de la plage en question interdit à mes logiciels d'affichage d'utiliser ces glyphes.

      En attendant de trouver un moyen de persuader mon système de surmonter ses inhibitions,
      j'aimerais vérifier automatiquement que les caractères qui ne s'affichent pas ont effectivement des numéros "privés".

    Voici
    un petit outil pour répondre à ces questions :
    Les menus problèmes techniques que pose sa réalisation sont exposés ici. Ils seront détaillés au cours n° 6.

  4. Investigations

    Mais il arrive que l'on rencontre un tigre sur son chemin (scil. un caractère inconnu).
    L'enregistrement du domaine du nôm n'est pas achevé !
    s'y emploient.

    L'outil d'investigation
    à mon avis le plus utile est http://www.nomfoundation.org/nomdb/lookup.php

    Autre référence :
    Chnôm Dictionary, by James Campbell : http://www.glossika.com/en/dict/viet.php
    N.B. Le site Glossika [http://www.glossika.com/en/dict/index.php] est consacré au chinois et à ses dialectes.