Mise en œuvre de la base Unihan

Jean-François Perrot

  1. Principe
  2. Mise en œuvre depuis le dictionnaire japonais en ligne WWWJDIC
  3. Mise en œuvre pour le sino-vietnamien
    1. Projet
    2. Réalisation

Documentation officelle : http://unicode.org/charts/unihan.html

  1. Principe

    Pour interroger la base au sujet d'un caractère répertorié dans le plan de base, connaissant son n° Unicode (en hexadécimal)
    il faut donner au navigateur une requête HTTP de la forme :

    http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=lenumérohex[&useutf8=true]

    Le champ useutf8 gouverne l'emploi d'UTF-8 vs pdf pour illustrer certains des caractères qui apparaissent dans la page
    p. ex. les variantes.

    Exemple : = U+7E7C

    Essayez ! http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=7E7C&useutf8=true
  2. Mise en œuvre depuis le dictionnaire japonais en ligne WWWJDIC

    1. Accès au dictionnaire :  http://www.csse.monash.edu.au/~jwb/cgi-bin/wwwjdic.cgi?1C

      Exemple : on demande le mot 日本語 (nihongo, la langue japonaise).

      Ouverture

    2. Possibles acceptions du mot demandé : c'est la première qui nous intéresse.
      Un clic sur le bouton Examine va nous exhiber les trois kanjis qui la composent

      Mot

    3. Présentation des kanjis
      avec leurs numéros dans divers catalogues, et notamment leur numéro Unicode qui porte un lien hypertexte vers la base Unihan.
      Nous choisissons le caractère  = U+8A9E
      Kanji

    4. Un clic sur ce lien appelle la page de la base Unihan.

      Unihan

  3. Mise en œuvre pour le sino-vietnamien

    1. Projet

      La prononciation sino-vietnamienne des caractères classiques (par opposition aux extensions nôm) est donnée par la base Unihan,
      dans la section finale de chaque page, intitulée Other Data, sous l'indicateur kVietnamese.

      Par exemple, pour le caractère   = U+8A9E, cette section nous informe qu'il se prononce ngữ (cf. 國 語  =  quốc ngữ).

      kViet

      On désire exploiter cette information pour aider à la lecture de la littérature sino-vietnamienne.
      L'idéal serait de coller dans une fenêtre un texte en caractères chinois et d'obtenir sa transcription sino-vietnamienne.
      Pour l'instant, on procèdera caractère par caractère, comme indiqué ci-après.
    2. Réalisation

      Étant donné le caractère, on a son numéro Unicode, il est donc facile d'engendrer une requête à la base Unihan, 
      puis d'extraire du fichier l'information portée sous l'indicateur kVietnamese.
      Comme ce processus est relativement lent,
      mais que le nombre de caractères à examiner est faible par rapport à la mémoire dont disposent les machines modernes,
      on enregistre chaque prononciation trouvée dans un fichier local,
      de manière à répondre instantanément à une demande ultérieure visant le même caractère.

      Voici l'outil que je vous propose, et voici un chantier où le pratiquer.