Cours PLURITAL 2011-2012

Cours n° 6 (13 décembre 2011)

Jean-François Perrot

Applications

  1. Introduction
  2. Technique C
  3. Technique JavaScript
  1. Introduction

    Nous avons examiné la raison d'être de la représentation informatique des écritures (entre les octets et les polices), 
    et son évolution historique aboutissant au standard Unicode. Nous sommes ainsi en mesure de comprendre la relation
    entre (par exemple : fichier evam.txt) la séquence d'octets

    E0A48FE0A4B5E0A48220E0A4AEE0A4AFE0A4BE20E0A4B6E0A58DE0A4B0E0A581E0A4A4E0A4AEE0A58D
    203D20657661E1B983206D6179C48120C59B727574616D203D20E5A682E698AFE68891E8819E


    et le fragment de texte en deux langues et trois écritures

    एवं मया श्रुतम् = evaṃ mayā śrutam = 如是我聞


    Nous nous intéressons aujourd'hui à la traduction de ces connaissances sous forme de programmes,
    en d'autres termes à leur mise en œuvre par programme.

    On présentera deux sortes de réalisations informatiques, la première servant d'outil pour réaliser la seconde :

    Le recours à C a un certain intérêt pédagogique dans le cadre du présent enseignement.
    En effet, les programmes C mettent explicitement en œuvre toute la chaîne qui conduit d'une suite d'octets à une suite de caractères
    telle qu'elle a été décrite dans les cours n° 1 et 4. Il apparaissent donc ici comme une mise en pratique directe de la théorie.
    Mais l'utilisation professionnelle de C est réservée à des spécialistes patentés, et selon toute vraisemblance les lecteurs de ces pages
    se serviront plutôt de Perl, de Java ou de PHP - pour se limiter aux langages enseignés dans le cadre du Master Plurital.
    Il est donc utile d'examiner brièvement la manière dont ces langages traitent la même question.

    L'emploi de ces langages modernes et puissants devrait aplanir toutes difficultés :
    Voici donc une page entièrement consacrée à une petite expérience comparative avec Perl, PHP-5, JavaScript et Java.
  2. La technique C est en 3 volets :

    1. Lecture et écriture octet par octet :
      Cette opération de base n'est pas si limpide qu'on pourrait le croire.
      Elle est traitée en détail, et mise en œuvre dans le programme lirOct.c.

    2. Lecture d'un fichier en UTF-8, production des numéros unicode associés, et réciproquement.
      Application directe de la technique ci-dessus et du cours n° 4.
      Programmes lirUTF8.c, utf8ToHTMLd.c et htmldToUTF8.c, utf8ToESC.c et ESCToutf8.c

    3. Application de utf8ToESC au transcodage automatique des programmes JavaScript visés à la section suivante.

    Notes techniques sur la programmation en C :

  3. La technique JavaScript présentée ici