L'écriture vietnamienne Nôm en
Unicode
Supplément au Cours PLURITAL n° 4 (24 novembre 2009)
- Contexte
- Exemples
- Nouvelles
questions
- Investigations
-
Contexte
Le vietnamien s'écrit aujourd'hui avec un alphabet à base latine appelé
quốc
ngữ (= langue nationale -
abréviation
courante de l'expression plus correcte chữ quốc ngữ
= caractères de la langue nationale).
Au cours de l'Histoire, les Vietnamiens ont d'abord écrit du chinois
classique (Hán tự ou chữ Hán).
Ils
ont ensuite (à partir du XIIIème siècle) développé un jeu de caractères
supplémentaires, suivant le
même format que les caractères chinois,
pour noter leur propre langue.
Ces caractères sont appelés chữ Nôm.
Ils ont servi à écrire toute la littérature vietnamienne jusqu'à la
colonisation française,
à la fin du XIXème siècle.
Voyez Wikipedia pour plus de détails.
Même si cette littérature est aujourd'hui lue en transcription quốc
ngữ, on commence à se préoccuper
d'éditer les textes classiques
dans leur écriture d'origine sur support
électronique.
L'écriture
nôm utilise les caractères chinois traditionnels, avec éventuellement
des lectures différentes suivant le contexte,
et aussi de nombreux
"néo-caractères" qui ne figurent pas dans le répertoire classique, et
qui échappent donc au catalogue Unicode initial.
Certains d'entre eux ont été répertoriés et sont entrés depuis la
version 3.0 dans le deuxième plan supplémentaire,
bloc CJK Unified Ideographs Extension B, plage
20000–2A6DF, qualifié de Rare, historic.
Wikipédia présente cette plage en 11 pages dont voici la première : http://fr.wikipedia.org/wiki/Table_des_caractères_Unicode/U20000
(les suivantes sont à la même adresse, avec U21000
,
U22000
, etc.)
En
outre, des polices incluant cette plage sont disponibles (sur SourceForge), on peut donc
effectivement lire et écrire du nôm en UTF-8,
et non plus seulement
avec des photos ou du pdf comme c'était la règle jusqu'à une date
récente.
-
Exemples
- Le premier exemple connu de moi se trouve dans la page
de
Wikipedia anglaise consacrée à l'œuvre-phare de la littérature
vietnamienne,
le célèbre roman en vers Kim
Vân Kiều
金雲翹 de Nguyễn Du : http://en.wikipedia.org/wiki/The_Tale_of_Kieu
,
qui donne les 6 premiers vers en UTF-8 (avec, prudemment, aussi une
version photo !).
On pourra comparer avec la photo fournie par http://www.nationmaster.com/encyclopedia/Kim-Van-Kieu
et surtout avec le début de la version complète en pdf : http://www.fedvsa.org.au/IMG/pdf/Kieu_THUng_NHHung.pdf
.
- Le recueil de poésies en
nôm de Nguyễn Trãi 阮廌 (1380-1442), le célèbre Quốc
Âm Thi Tập (QATT) 國音詩集
est accessible en tout ou en partie sur plusieurs sites :
- En entier, sur le grand répertoire de poésie
vietnamienne
http://www.thivien.net/
,
à l'adresse
http://www.thivien.net/viewpoemgroup.php?ID=36
mais la majorité des poèmes n'y sont donnés qu'en quốc
ngữ.
J'ai repéré 7 textes en nôm, dont le premier Thủ vĩ ngâm
首尾吟.
Ils ont tous la particularité de n'utiliser que des caractères
chinois classiques...
- À l'adresse
http://nguyendu.com.free.fr/langues/thonom/
(50 poèmes sur 254),
avec le texte en nôm-UTF-8 et version en quốc
ngữ,
le tout sur un fond de photo du même texte nôm manuscrit (ou en
typographie ancienne) :
attention ! ce texte manuscrit se lit en colonnes et de
droite à gauche, conformément à la tradition !
- La section n° 31 du QATT est intitulée 桃花詩 ÐÀO HOA
THI
= Poèmes
sur le pêcher.
Elle comporte six quatrains, les n°s 227-232 du recueil.
On trouve en http://www.viethoc.org/eholdings/DaoHoaThi-new.pdf
une édition de ces six pièces
avec
transcription en quốc
ngữ et traduction anglaise, par Lê Văn Ðặng.
Le texte en nôm suit l'édition originale Phúc Khê,
datant de la cinquième année du règne de Tự Ðức
(1868).
Fort heureusement, dans le fichier en question, les caractères sous-jacents au pdf sont codés en UTF-8.
Il est donc facile d'effectuer la retranscription
en HTML, que voici.
Je l'ai assortie de la traduction française de Paul
Schneider
[Nguyen Trai et son Recueil de poèmes en langue nationale,
étude et traduction par Paul Schneider et al.
Éditions du CNRS, Paris 1987]
-
Nouvelles
questions
- Étant donné un texte
écrit en nôm, quels caractères
relèvent de
l'extension, et lesquels sont "classiques" ?
En effet, bien savant est celui qui peut dire à coup sûr :
Ceci n'est pas un caractère chinois classique !
- Dans les textes en nôm trouvés sur le réseau, on
constate assez souvent que certains caractères ne sont pas affichés par
le navigateur,
ni d'ailleurs par un éditeur de textes. Quelle en est la cause ?
En allant regarder les octets, je constate que
- ces caractères ont des numéros Unicode qui relèvent
d'une zone privée, entre
U+E000
et U+F8FF
;
- avec la palette de caractères ou avec
l'outil UnicodeChecker, je constate que les polices HAN NOM
téléchargées de SourceForge contiennent des glyphes pour ces numéros,
et que ces glyphes sont effectivement ceux qui sont attestés par ailleurs (pdf,
images, etc) ;
- mais apparemment le caractère "privé" de la plage
en question interdit à mes logiciels d'affichage d'utiliser ces glyphes.
En attendant de trouver un moyen de persuader mon système de surmonter
ses inhibitions,
j'aimerais vérifier automatiquement que les
caractères qui ne s'affichent pas ont effectivement des
numéros "privés".
Voici un
petit outil pour répondre à ces questions :
- les caractères chinois du BMP seront reproduits en
vert,
- ceux du plan supplémentaire en rouge
- et ceux de la zone privée apparaîtront comme des carrés
bleus porteurs d'un lien qui vous livrera leur numéro.
Les menus problèmes techniques que pose sa réalisation sont exposés ici. Ils seront détaillés
au cours
n° 6.
-
Investigations
Mais il arrive que l'on rencontre un tigre
sur son chemin (scil. un
caractère inconnu).
L'enregistrement du domaine du nôm n'est pas achevé !
s'y emploient.
L'outil d'investigation à mon avis le plus utile est
http://www.nomfoundation.org/nomdb/lookup.php
- pour les caractères qui sont
dans Unicode, renvoi à la table Unihan ;
ce renvoi a notamment pour effet de détecter la présence d'une police
en local...
- pour d'autres qui sont en cours d'homologation, donne
leur
numéro
provisoire de la forme V+nnnnnn
- accès par la prononciation donnée en quốc
ngữ :
on
peut donner toute une phrase, on récolte un tableau
contenant toutes les réalisations possibles !
- accès possible par le n° Unicode en hexa.
Autre référence :
Chữ nôm
Dictionary, by
James
Campbell :
http://www.glossika.com/en/dict/viet.php
- liste de 4000 caractères nôm :
- affiche les glyphes (photo), les n°s Unicode et les
valeurs phonétiques
: p. ex. sous la clef 宀, on trouve 𡨸
U+21a38
,
chữ
- accès via la clef
- accès via la prononciation donnée en quốc
ngữ (liste alphabétique)
N.B. Le site Glossika [http://www.glossika.com/en/dict/index.php]
est
consacré au chinois et à ses dialectes.