Traitement informatique
des jeux de caractères
MASTER PLURITAL
Gestion
informatique du Multilinguisme (GIM)
Jean-François Perrot & Marie-Anne Moreaux
Le cours 2014-2015 sera donné par Marie-Anne
Moreaux, selon les modalités que voici :
- Les séances seront consacrées à 3h
d'expérimentation sur machine, dans la salle informatique 7.04 (à
l'exception
de la toute première séance).
Vous trouverez les indications nécessaires sur la page Informations pratiques.
- Chaque séance accueillera la moitié de la
promotion, en alternance une semaine sur deux
(chaque étudiant participera donc à six séances).
La répartition en 2 demi-promotions sera effectuée lors
du premier cours, le 23
septembre en salle 4.24.
- Avant chaque séance, les étudiants
sont invités à prendre connaissance de la page de cours correspondante (voir ci-dessous le plan de marche).
- Présentation
- Plan d'ensemble
- Plan de
marche 2014-2015
-
Présentation
- Ce site est en premier lieu consacré au cours GIM
du master
Plurital (universités Paris-III, Paris-X et INaLCO).
Il a aussi pour ambition de constituer une ressource présentant un
choix de problèmes rencontrés dans la pratique,
et proposant des solutions.
En tant que cours, il s'adresse à des étudiants linguistes, confrontés
aux difficultés qu'éprouvent les ordinateurs à échanger des textes dans
des langues différentes - que ce soit des corpus, des pages web ou de
simples méls. Ces difficultés ont pour origine des choix techniques
fondamentaux, qui sont rarement explicités à l'usage des informaticiens
eux-mêmes et encore plus rarement à l'intention des profanes. Or, ces
choix n'ont rien de mystérieux, ils relèvent d'une problématique facile
à saisir et d'un intérêt certain, surtout pour des linguistes. Enfin,
le standard Unicode, en voie de généralisation, apporte une solution
qu'on peut espérer définitive à ces difficultés.
D'autre part, l'explosion de la communication sur Internet, favorisée
par l'adoption d'Unicode, alliée à la puissance et aux
capacités typographiques des ordinateurs modernes, offre à la pratique
du multilinguisme sur ordinateur un champ chaque jour plus
étendu. Pour en profiter pleinement, il est donc plus que jamais utile
de comprendre les enjeux de la rubrique Encodage
du texte
!
- Ce cours se donne les buts suivants :
- Comprendre la nature des problèmes
posés
par la représentation des systèmes d'écriture dans un ordinateur
(codage des caractères dans les fichiers, affichage à l'écran et saisie
au clavier)
- Connaître les principales
solutions disponibles (codages sur 8 bits comme Latin-1, format UTF-8
d'Unicode).
Unicode fera l'objet d'une attention particulière.
- Savoir mettre en œuvre une gamme d'outils dans les
situations
les plus
fréquemment rencontrées en pratique.
- Le contrôle des connaissances se fait par un examen écrit
classique de 3h, avec accès illimité à tout document, y compris Internet.
Pour en savoir plus, voyez les archives
des examens passés.
-
Plan d'ensemble
- Introduction et soubassement technique,
- Nature de l'information : Bits, Octets, Caractères,
le
code ASCII à 7 bits
- Problèmes matériels (processus de lecture,
d'écriture,
de transmission).
- Les tables sur 8 bits
- Extensions du code ASCII
- Variations suivant les plates-formes
- Diversité géographique
- Unicode
- Principe, format UTF-8
- Problèmes d'écriture bidirectionnelle, de tri
alphabétique, de caractères combinés
- Exemples de mise en œuvre en divers langages de
programmation
-
Plan de
marche 2014-2015
- 23/09 : Séance d'organisation en salle 4.24 : Problématique et modlités pratiques du cours 2014-2015
- 30/09 & 07/10 Cours 1
: Des
octets au code ASCII
TD1 - Corrigé
- 14/10 & 21/10 - Cours 2 : Caractères,
Glyphes et Polices
Problèmes généraux du texte sur machine :
saisie, sauvegarde, affichage, transmission
TD2
-------- 25/10 - 2/11 congés d'automne --------
- 04/11 & 18/11 - Cours 3 : Codes
sur 8 bits
La normalisation ISO 8859 et quelques autres
- 25/11 & 02/12 - Cours 4 : Unicode
(1)
Principe - format UTF-8
- 09/12 & 16/12 - Cours 5 : Unicode
(2)
Algorithme droite-gauche, ordre alphabétique, caractères
combinés
- 06/01/2015 - Cours 6 : Exemples
de mise en œuvre
groupe A (13h-14h30) & groupe B (14h30-17h)