UtilUnihan

Mise en œuvre de la base Unihan

Jean-François Perrot

Principe
Mise en œuvre depuis le dictionnaire japonais en ligne WWWJDIC
Mise en œuvre pour le sino-vietnamien
1. Projet
2. Réalisation

Documentation officelle : http://unicode.org/charts/unihan.html

Principe
Pour interroger la base au sujet d'un caractère répertorié dans le plan de base, connaissant son n° Unicode (en hexadécimal)
il faut donner au navigateur une requête HTTP de la forme :

http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=lenumérohex[&useutf8=true]

Le champ useutf8 gouverne l'emploi d'UTF-8 vs pdf pour illustrer certains des caractères qui apparaissent dans la page
p. ex. les variantes.

Exemple : 繼 = U+7E7C

Essayez ! http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=7E7C&useutf8=true
Mise en œuvre depuis le dictionnaire japonais en ligne WWWJDIC
1. Accès au dictionnaire : http://www.csse.monash.edu.au/~jwb/cgi-bin/wwwjdic.cgi?1C
  
  Exemple : on demande le mot 日本語 (nihongo, la langue japonaise).
2. Possibles acceptions du mot demandé : c'est la première qui nous intéresse.
  Un clic sur le bouton Examine va nous exhiber les trois kanjis qui la composent
3. Présentation des kanjis
  avec leurs numéros dans divers catalogues, et notamment leur numéro Unicode qui porte un lien hypertexte vers la base Unihan.
  Nous choisissons le caractère 語 = U+8A9E
4. Un clic sur ce lien appelle la page de la base Unihan.
Mise en œuvre pour le sino-vietnamien
1. Projet
  La prononciation sino-vietnamienne des caractères classiques (par opposition aux extensions nôm) est donnée par la base Unihan,
  dans la section finale de chaque page, intitulée Other Data, sous l'indicateur kVietnamese.
  
  Par exemple, pour le caractère 語 = U+8A9E, cette section nous informe qu'il se prononce ngữ (cf. 國語 = quốc ngữ).
  
  On désire exploiter cette information pour aider à la lecture de la littérature sino-vietnamienne.
  L'idéal serait de coller dans une fenêtre un texte en caractères chinois et d'obtenir sa transcription sino-vietnamienne.
  Pour l'instant, on procèdera caractère par caractère, comme indiqué ci-après.
2. Réalisation
  Étant donné le caractère, on a son numéro Unicode, il est donc facile d'engendrer une requête à la base Unihan,
  puis d'extraire du fichier l'information portée sous l'indicateur kVietnamese.
  Comme ce processus est relativement lent,
  mais que le nombre de caractères à examiner est faible par rapport à la mémoire dont disposent les machines modernes,
  on enregistre chaque prononciation trouvée dans un fichier local,
  de manière à répondre instantanément à une demande ultérieure visant le même caractère.
  
  Voici l'outil que je vous propose, et voici un chantier où le pratiquer.