Illustrations des comportements adoptés par Netscape Composer
en matière de sauvegarde
suivant le codage choisi par l'utilisateur.
Pour bien faire voir que la sauvegarde sur disque
ne se borne pas à un transfert d'octets,
mais comporte des opérations complexes
qu'il convient de paramétrer avec soin.
On choisit les trois codages qui nous intéressent le plus directement : UTF-8, Mac Roman et iso-8859-1.
Texte observé (via la commande more) contenant du français, du turc et de la devanagari,
ainsi que des caractères spéciaux pour la translittération :
जन वाणी, translittéré officiellement jan vāṇī
c'est-à-dire, en français La voix du peuple
ve Türkçede Halkın sesi
-
Lorsque le codage choisi est UTF-8, tout est enregistré en UTF-8, bien sûr.
On observe donc des triplets d'octets pour les caractères nagari, des doublets pour les autres caractères non-ascii,
à l'exception du "ṇ" qui translittère la cérébrale nasale "ण",
qui a le numéro 7751 = x1E47 LATIN SMALL LETTER N WITH DOT BELOW
et qui a donc un code UTF-8 sur 3 octets : <E1><B9><87>.
On ne trouve aucun octet seul (sauf, bien entendu, les caractères ascii).
Pour faciliter l'examen, les octets en question sont ici mis en gras :
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html><head><meta content="text/html; charset=UTF-8" http-equiv="content-type"><title>Texte</title></head>
<body>
<hr style="width: 100%; height: 2px;">
<E0><A4><9C><E0><A4><A8>
<E0><A4><B5><E0><A4><BE><E0><A4><A3><E0><A5><80>, translitt<C3><A9>r<C3><A9>
officiellement
<big><span style="font-family: monospace;">jan
v<C4><81><E1><B9><87><C4><AB>
</span></big><br>
c'est-<C3><A0>-dire,
en fran<C3><A7>ais <span style="font-style:
italic;">La voix du peuple<br></span>
<span
style="font-family: monospace;">ve
T<C3><BC>rk<C3><A7>ede
<span
style="font-style: italic;">Halk<C4><B1>n
sesi</span></span><br>
<hr style="width: 100%; height: 2px;"></body></html>
- Lorsque le codage est Mac Roman (codage indigène),
les lettres accentuées
et autres
caractères disponibles en Mac Roman (y compris le i sans point turc : <F5>)
sont enregistrés en un seul octet,
mais les caractères étrangers sont codés en entités &#numérodécimal;
on voit donc comparaître notre "ṇ" sous son vrai nom ṇ.
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html><head><meta content="text/html; charset=x-mac-roman" http-equiv="content-type"><title>Texte</title></head>
<body>
<hr style="width: 100%; height: 2px;">
जन वाणी, translitt<8E>r<8E>
officiellement <big><span style="font-family: monospace;">jan vāṇī </span></big><br>
c'est-<88>-dire, en fran<8D>ais <span style="font-style: italic;">La voix du peuple<br></span>
<span style="font-family: monospace;">ve T<9F>rk<8D>ede
<span style="font-style: italic;">Halk<F5>n sesi</span></span><br>
<hr style="width: 100%; height: 2px;"></body></html>
- Lorsque le codage est iso-8859-1, en revanche,
tous les caractères non-ascii qui ont des représentations en entités HTML sont représentés ainsi (lettres accentuées, cédilles),
les autres étant donnés par leurs numéros Unicode comme ci-dessus.
On note que le i sans point ne possède pas d'entité HTML prédéfinie et qu'il apparaît donc sous son numéro Unicode.
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html><head><meta content="text/html; charset=ISO-8859-1" http-equiv="content-type"><title>Texte</title></head>
<body>
<hr style="width: 100%; height: 2px;">
जन वाणी, translittéré
officiellement <big><span style="font-family: monospace;">jan vāṇī </span></big><br>
c'est-à-dire, en français <span style="font-style: italic;">La voix du peuple<br>
</span><span style="font-family: monospace;">ve Türkçede
<span style="font-style: italic;">Halkın sesi</span></span><br>
<hr style="width: 100%; height: 2px;"></body></html>