Cours PLURITAL 2008-2009

Jean-François Perrot & Marie-Anne Moreaux

Examen écrit du mardi 8 septembre 2009               Durée 2h, tous documents autorisés

Les trois questions que voici sont sans rapport entre elles. Traitez-les dans l'ordre de votre choix


  1. Un problème étrange

    Je reçois d'une étudiante japonaise un message troublant : en lisant une des pages Web du cours, à l'adresse
    http://pagesperso-systeme.lip6.fr/Jean-Francois.Perrot/inalco/cours07/Cours1/InterpNum/InterpNum.html
    elle voit apparaître des caractères chinois incongrus.
    "Les caractères accentués sont souvent modifiés, mais ici, par exemple "interprétation" est devenue "interpr 騁ation":
     non seulement "é", "t" aussi a disparu... Pourquoi ?
    "

    En effet, voici le spectacle insolite qui s'offre à ses yeux :
    Texte

    Un premier indice pour vous mettre sur la piste :

    Le système de codage Shift-JIS, très prisé des Japonais et souvent employé pour leurs pages Web,
    représente les caractères chinois sur deux octets.
    voici les codes des caractères qui apparaissent ci-dessus :

    Enfin (faut-il vous le rappeler ?)

    l'octet "e9" (resp. "e8", "ea") code "é" (resp. "è", "ê") en Latin-1...

    1. Quel est le codage des caractères de la page Web en question ? Pourquoi ?
    2. Que se serait-il passé (avec le même réglage du navigateur) si ce codage avait été différent ?
    3. Que faut-il faire pour éviter cette surprise à nos amis japonais ?




  2. Problème de transmission

    Pour envoyer une référence à un ami indianiste, je suis amené à écrire dans un mél :
    "Le texte en devanâgarî se trouve sur Wikisource : http://wikisource.org/wiki/उपनिषद््."
    Mais mon mailer refuse d'afficher les caractères indiens et les remplace tous par des points d'interrogation :
    "http://wikisource.org/wiki/???????".
    Inquiet au sujet du comportement possible du mailer de mon correspondant, je cherche une autre manière d'envoyer ma référence,
    et sur la page de Wikisource elle-même je trouve "retrieved from
    http://wikisource.org/wiki/%E0%A4%89%E0%A4%AA%E0%A4%A8%E0%A4%BF%E0%A4%B7%E0%A4%A6%E0%A5%8D"
    J'essaie cette URL, ça marche ! Et elle, je suis sûr de pouvoir l'envoyer sans crainte de malentendu...

    Pourquoi les deux écritures "http://wikisource.org/wiki/उपनिषद्" et
    "http://wikisource.org/wiki/%E0%A4%89%E0%A4%AA%E0%A4%A8%E0%A4%BF%E0%A4%B7%E0%A4%A6%E0%A5%8D"
    sont-elles équivalentes ?




  3. Encodage inconnu


    J'extrais le passage suivant d'un message envoyé par une liste de diffusion :

    La principale nouveaut� est la d�couverte du
        r�le central que joue la notion math�matique
        de complexit�, qui semble spontan�ment mesur�e
        par les �tres humains. Une situation appara�t
        comme pertinente d�s lors qu'elle est moins
        "complexe" que pr�vu.



    Voyez-vous une raison possible à cette anomalie ?

    Je cherche à redonner à ce texte une forme acceptable en essayant de le sauvegarder dans un codage autre qu'UTF-8,
    mais mon éditeur refuse cette opération. Quelle peut être la cause de ce refus ?

    Pour en avoir le cœur net, j'examine le texte avec hexdump :

    00000000  4c 61 20 70 72 69 6e 63  69 70 61 6c 65 20 6e 6f  |La principale no|
    00000010 75 76 65 61 75 74 ef bf bd 20 65 73 74 20 6c 61 |uveaut� est la|
    00000020 20 64 ef bf bd 63 6f 75 76 65 72 74 65 20 64 75 | d�couverte du|
    00000030 20 0d 20 20 20 20 72 ef bf bd 6c 65 20 63 65 6e | . r�le cen|
    00000040 74 72 61 6c 20 71 75 65 20 6a 6f 75 65 20 6c 61 |tral que joue la|
    00000050 20 6e 6f 74 69 6f 6e 20 6d 61 74 68 ef bf bd 6d | notion math�m|
    00000060 61 74 69 71 75 65 0d 20 20 20 20 64 65 20 63 6f |atique. de co|
    00000070 6d 70 6c 65 78 69 74 ef bf bd 2c 20 71 75 69 20 |mplexit�, qui |
    00000080 73 65 6d 62 6c 65 20 73 70 6f 6e 74 61 6e ef bf |semble spontan?|
    00000090 bd 6d 65 6e 74 20 6d 65 73 75 72 ef bf bd 65 0d |?ment mesur�e.|
    000000a0 20 20 20 20 70 61 72 20 6c 65 73 20 ef bf bd 74 | par les �t|
    000000b0 72 65 73 20 68 75 6d 61 69 6e 73 2e 20 55 6e 65 |res humains. Une|
    000000c0 20 73 69 74 75 61 74 69 6f 6e 20 61 70 70 61 72 | situation appar|
    000000d0 61 ef bf bd 74 20 0d 20 20 20 20 63 6f 6d 6d 65 |a�t . comme|
    000000e0 20 70 65 72 74 69 6e 65 6e 74 65 20 64 ef bf bd | pertinente d�|
    000000f0 73 20 6c 6f 72 73 20 71 75 27 65 6c 6c 65 20 65 |s lors qu'elle e|
    00000100 73 74 20 6d 6f 69 6e 73 0d 20 20 20 20 22 63 6f |st moins. "co|
    00000110 6d 70 6c 65 78 65 22 20 71 75 65 20 70 72 ef bf |mplexe" que pr?|
    00000120 bd 76 75 2e |?vu.|
    00000124


    Ai-je quelque espoir de retrouver le texte original ?