Cours PLURITAL 2009-2010

Jean-François Perrot & Marie-Anne Moreaux

Examen écrit du mardi 26 janvier 2010               Durée 3h, tous documents autorisés

Les trois questions que voici sont sans rapport entre elles. Traitez-les dans l'ordre de votre choix.

Veillez à toujours motiver vos décisions...

  1. D'un codage à l'autre

    Voici les octets contenus dans un fichier nommé Ex.txt.

    6c 65 73 20 64 e9 70 65 6e 73 65 73 20 64 65 20
    6c 92 c9 74 61 74 20 0d 0a 76 69 73 61 6e 74 20
    e0 20 73 74 69 6d 75 6c 65 72 20 0d 0a 6c 92 e9
    63 6f 6e 6f 6d 69 65 2e 0d 0a



    Quand je le donne à lire à mon éditeur de textes favori, ce dernier me fait la réponse suivante :

    txtW-1

    et voici les choix qu'il me propose :

    txtW-2

    Dans cette liste "Windows Latin 1" doit se comprendre comme "Windows 1252".

    1. Pourquoi le codage "Unicode (UTF-8)" est-il absent du menu ?
      Et pourquoi les codages UTF-16 proposés portent-ils la mention "no BOM" ?

    2. J'hésite entre les quatre options "Western".
      Pouvez-vous prévoir le texte affiché par l'éditeur suivant chacun de ces choix ?
      Quel est "le bon choix" ?

    3. Je veux utiliser ce fichier pour faire des essais avec le logiciel recode,
      qui, comme son nom l'indique, permet de faire passer un fichier d'un codage à un autre.

      • En entendant par erreur un signal quelconque indiquant caractère inconnu,
        puis-je le recoder sans erreur en ISO-8859-1 ? en MacRoman ?

      • Si je le recode en UTF-8, combien d'octets contiendra le fichier recodé ?


  2. Courrier électronique


    Une estimable société savante m'envoie une newsletter que mon mailer ne trouve pas à son goût :

    SAF

    Pourquoi ces points d'interrogation ? Je vais lire le code-source du message et je vois :

    From: Société Astronomique de France <saf.lalettre@club-internet.fr>
    To: Jean-Francois.Perrot@lip6.fr
    Subject: =?iso-8859-1?Q?Soci=E9t=E9_Astronomique_de_franc?=
        =?iso-8859-1?Q?e,_la_lettre,_d=E9cembre_2009?=
    Content-Type: multipart/related;
        type="multipart/alternative";
        boundary="----=_NextPart_001_35D9_61CB1D76.1EE4647A"
    Date: Fri, 11 Dec 2009 00:57:27 +0100



    1. Pouvez-vous m'expliquer ces points d'interrogation étranges ?

    2. À quoi riment ces indications cabalistiques  =?iso-8859-1?Q?Soci=E9t=E9_... ?

  3. Cédille aléatoire

    J'ai un nouveau mailer perfectionné qui me montre des choses étonnantes, par exemple :

    N'est-ce pas curieux ?

    1. Les "expéditeurs" ainsi affichés correspondent en général à des textes-sources
      From: =?windows-1252?Q?Jean-Fran=8Dcois_Perrot?=<Jean-Francois.Perrot@lip6.fr>
      mais aussi bien à
      From: =?UTF-8?B?SmVhbi1GcmFuwo1jb2lzIFBlcnJvdA==?=<Jean-Francois.Perrot@lip6.fr>

      L'affichage ci-dessus vous paraît-il justifié ?

    2. Les deux "citations" sont issues de deux messages également paramétrés :
      Content-Type: text/plain; charset=ISO-8859-1;
      Content-Transfer-Encoding: quoted-printable


      dont l'un contient
      Le 19 janv. 10 =E0 18:50, Jean-Fran=3D8Dcois_Perrot a =E9crit :
      et l'autre
      Le 18 janv. 10 =E0 14:26, Jean-Fran=8Dcois Perrot a =E9crit :

      Which is which ?


    3. Le texte de la "première citation" se laisse analyser en octets. Pour le fragment
      jfp-4
      on trouve :
      4A 65 61 6E 2D 46 72 61 6E C2 8D 63 6F 69 73 20
      50 65 72 72 6F 74 20 61 20 C3 A9 63 72 69 74


      Le carré blanc vous paraît-il justifié ?





    4. J'ai fait le nécessaire pour retrouver ma cédille et désormais j'apparais dignement

      jfp-5

      sauf une fois où je suis déguisé en  jfp-6
      dont voici le code-source :
      From: =?ISO-2022-JP?B?SmVhbi1GcmFuYyxvaXMgUGVycm90?=<Jean-Francois.Perrot@lip6.fr>

      Que s'est-il passé ?