Un exemple : restaurer des textes en turc

Application de la technique de lecture octet par octet à un problème bien réel,
et assez typique pour fournir un modèle.
  1. Problème à traiter

  2. Solution


  3. Reste à traiter les lettres accentuées du français (codées ici en MacRoman)
    ce n'est qu'une routine fastidieuse...

    Voici un exemple complet : à partir du fichier Word que voici (fichier MoiNH.doc),
    relatif à un poème célèbre de Nazım Hikmet

    MoiNH

    en le sauvegardant en "texte seulement" (fichier MoiNH.txt) et en lui appliquant notre programme,
    on obtient le texte UTF-8  suivant (fichier MoiNHU.txt) :
    Moi, Nâzïm Hikmet

    Ben, bir insan.
    Ben Türk şairi Nâzım Hikmet ben,
    Tepeden tırnağa insan,
    Tepeden tırnağa kavga, hasret ve ümitten
    ibaret ben...

    Moi, un homme.
    (S'il avait voulu dire "Je suis un homme", il aurait écrit Ben, bir insanım.)
    Tepeden tırnağa = de la tête aux pieds
    tepe = le sommet
    tırnak = l'ongle
    kavga = la bagarre, la querelle
    hasret = le regret, la nostalgie
    ibaret = composé de + ablatif
    ümit = umut = l'espoir
    les trois substantifs kavga, hasret et ümit sont à l'ablatif !
    = fait de bagarre, de nostalgie et d'espoir



    Dans l'affaire, on a perdu la différentiation opérée par les deux polices, les caractères gras, les italiques,
    bref toute la mise en forme, mais on récupéré intégralement le texte...