L'écriture vietnamienne Nôm en Unicode

Supplément au Cours PLURITAL n° 4 (24 novembre 2009)

Jean-François Perrot

Contexte
Exemples
Nouvelles questions
Investigations

Contexte
Le vietnamien s'écrit aujourd'hui avec un alphabet à base latine appelé quốc ngữ (= langue nationale -
abréviation courante de l'expression plus correcte chữ quốc ngữ = caractères de la langue nationale).
Au cours de l'Histoire, les Vietnamiens ont d'abord écrit du chinois classique (Hán tự ou chữ Hán).
Ils ont ensuite (à partir du XIIIème siècle) développé un jeu de caractères supplémentaires, suivant le même format que les caractères chinois,
pour noter leur propre langue.
Ces caractères sont appelés chữ Nôm. Ils ont servi à écrire toute la littérature vietnamienne jusqu'à la colonisation française,
à la fin du XIXème siècle.
Voyez Wikipedia pour plus de détails.
Même si cette littérature est aujourd'hui lue en transcription quốc ngữ, on commence à se préoccuper d'éditer les textes classiques
dans leur écriture d'origine sur support électronique.

L'écriture nôm utilise les caractères chinois traditionnels, avec éventuellement des lectures différentes suivant le contexte,
et aussi de nombreux "néo-caractères" qui ne figurent pas dans le répertoire classique, et qui échappent donc au catalogue Unicode initial.
Certains d'entre eux ont été répertoriés et sont entrés depuis la version 3.0 dans le deuxième plan supplémentaire,
bloc CJK Unified Ideographs Extension B, plage 20000–2A6DF, qualifié de Rare, historic.

Wikipédia présente cette plage en 11 pages dont voici la première : http://fr.wikipedia.org/wiki/Table_des_caractères_Unicode/U20000(les suivantes sont à la même adresse, avec U21000, U22000, etc.)

En outre, des polices incluant cette plage sont disponibles (sur SourceForge), on peut donc effectivement lire et écrire du nôm en UTF-8,
et non plus seulement avec des photos ou du pdf comme c'était la règle jusqu'à une date récente.
Exemples
- Le premier exemple connu de moi se trouve dans la page de Wikipedia anglaise consacrée à l'œuvre-phare de la littérature vietnamienne,
  le célèbre roman en vers Kim Vân Kiều 金雲翹 de Nguyễn Du : http://en.wikipedia.org/wiki/The_Tale_of_Kieu,
  qui donne les 6 premiers vers en UTF-8 (avec, prudemment, aussi une version photo !).
  On pourra comparer avec la photo fournie par http://www.nationmaster.com/encyclopedia/Kim-Van-Kieu
  et surtout avec le début de la version complète en pdf : http://www.fedvsa.org.au/IMG/pdf/Kieu_THUng_NHHung.pdf.
- Le recueil de poésies en nôm de Nguyễn Trãi 阮廌 (1380-1442), le célèbre Quốc Âm Thi Tập (QATT) 國音詩集
  est accessible en tout ou en partie sur plusieurs sites :
  - En entier, sur le grand répertoire de poésie vietnamienne http://www.thivien.net/, à l'adresse
    http://www.thivien.net/viewpoemgroup.php?ID=36
    mais la majorité des poèmes n'y sont donnés qu'en quốc ngữ.
    J'ai repéré 7 textes en nôm, dont le premier Thủ vĩ ngâm 首尾吟.
    Ils ont tous la particularité de n'utiliser que des caractères chinois classiques...
  - À l'adresse http://nguyendu.com.free.fr/langues/thonom/ (50 poèmes sur 254),
    avec le texte en nôm-UTF-8 et version en quốc ngữ,
    le tout sur un fond de photo du même texte nôm manuscrit (ou en typographie ancienne) :
    attention ! ce texte manuscrit se lit en colonnes et de droite à gauche, conformément à la tradition !
  - La section n° 31 du QATT est intitulée 桃花詩 ÐÀO HOA THI = Poèmes sur le pêcher.
    Elle comporte six quatrains, les n°s 227-232 du recueil.
    On trouve en http://www.viethoc.org/eholdings/DaoHoaThi-new.pdf une édition de ces six pièces
    avec transcription en quốc ngữ et traduction anglaise, par Lê Văn Ðặng.
    Le texte en nôm suit l'édition originale Phúc Khê, datant de la cinquième année du règne de Tự Ðức (1868).
    Fort heureusement, dans le fichier en question, les caractères sous-jacents au pdf sont codés en UTF-8.
    Il est donc facile d'effectuer la retranscription en HTML, que voici.
    Je l'ai assortie de la traduction française de Paul Schneider
    [Nguyen Trai et son Recueil de poèmes en langue nationale, étude et traduction par Paul Schneider et al.
    Éditions du CNRS, Paris 1987]
Nouvelles questions
1. Étant donné un texte écrit en nôm, quels caractères relèvent de l'extension, et lesquels sont "classiques" ?
  En effet, bien savant est celui qui peut dire à coup sûr : Ceci n'est pas un caractère chinois classique !
2. Dans les textes en nôm trouvés sur le réseau, on constate assez souvent que certains caractères ne sont pas affichés par le navigateur,
  ni d'ailleurs par un éditeur de textes. Quelle en est la cause ?
  En allant regarder les octets, je constate que
  - ces caractères ont des numéros Unicode qui relèvent d'une zone privée, entre U+E000 et U+F8FF ;
  - avec la palette de caractères ou avec l'outil UnicodeChecker, je constate que les polices HAN NOM
    téléchargées de SourceForge contiennent des glyphes pour ces numéros,
    et que ces glyphes sont effectivement ceux qui sont attestés par ailleurs (pdf, images, etc) ;
  - mais apparemment le caractère "privé" de la plage en question interdit à mes logiciels d'affichage d'utiliser ces glyphes.
  En attendant de trouver un moyen de persuader mon système de surmonter ses inhibitions,
  j'aimerais vérifier automatiquement que les caractères qui ne s'affichent pas ont effectivement des numéros "privés".
Voici un petit outil pour répondre à ces questions :
- les caractères chinois du BMP seront reproduits en vert,
- ceux du plan supplémentaire en rouge
- et ceux de la zone privée apparaîtront comme des carrés bleus porteurs d'un lien qui vous livrera leur numéro.
Les menus problèmes techniques que pose sa réalisation sont exposés ici. Ils seront détaillés au cours n° 6.
Investigations
Mais il arrive que l'on rencontre un tigre sur son chemin (scil. un caractère inconnu).
L'enregistrement du domaine du nôm n'est pas achevé !
- l'Institut Hán-Nôm de Hanoï
- et la Vietnamese Nôm Preservation Foundation aux États-Unis
s'y emploient.

L'outil d'investigation à mon avis le plus utile esthttp://www.nomfoundation.org/nomdb/lookup.php
- pour les caractères qui sont dans Unicode, renvoi à la table Unihan ;
  ce renvoi a notamment pour effet de détecter la présence d'une police en local...
- pour d'autres qui sont en cours d'homologation, donne leur numéro provisoire de la forme V+nnnnnn
- accès par la prononciation donnée en quốc ngữ :
  on peut donner toute une phrase, on récolte un tableau contenant toutes les réalisations possibles !
- accès possible par le n° Unicode en hexa.
Autre référence :
Chữ nôm Dictionary, by James Campbell : http://www.glossika.com/en/dict/viet.php
- liste de 4000 caractères nôm :
- affiche les glyphes (photo), les n°s Unicode et les valeurs phonétiques : p. ex. sous la clef 宀, on trouve 𡨸 U+21a38, chữ
- accès via la clef
- accès via la prononciation donnée en quốc ngữ (liste alphabétique)
N.B. Le site Glossika [http://www.glossika.com/en/dict/index.php] est consacré au chinois et à ses dialectes.

L'écriture vietnamienne Nôm en Unicode

Supplément au Cours PLURITAL n° 4 (24 novembre 2009)

Jean-François Perrot

Contexte

Exemples

Nouvelles questions

Investigations