Cours n° 2, 3 octobre 2013

Jean-François Perrot

Ensembles de mots : langages

Les opérations ensemblistes
Lois sur les opérations ensemblistes
Mots et ensembles de mots
Expressions régulières (ou rationnelles)

Les opérations ensemblistes
Elles sont au nombre de 3, apparentées du point de vue algébrique à l'addition, à la multiplication et à la soustraction des nombres.
Elles sont étroitement liées aux opérations logiques de disjonction (ou), conjonction (et), et négation (non)
1. Réunion, ou union ensembliste
  Étant donnés deux ensembles E et F, la réunion de E et de F est l'ensemble des éléments de E et des éléments de F,
  ce qui se reformule en "l'ensemble des éléments de E ou de F".
  
  La notion d'ensemble étant ce qu'elle est, il n'est pas question de
  "compter deux fois les éléments qui appartiennent aux deux".
  Il faudrait pour celà une notion d'ensemble avec multiplicités
  (connue en informatique sous le nom de bag, par opposition à set),
  c'est une autre histoire.
  On voit ici apparaître le "ou", la disjonction logique notée traditionnellement ⋁ (comme V, initiale du latin vel = ou).
  On écrit : E ∪ F = { x | x ∈ E ⋁ x ∈ F }
  
  Le signe ∪ (Unicode x222A) peut être vu soit comme dérivé arrondi du symbole de disjonction ⋁ (Unicode x22C1),
  soit comme l'initiale de union...
  
  En termes de prédicats associés, il est clair que la réunion des ensembles correspond à la disjonction des prédicats.
  P_E∪F = P_E ⋁ P_F .
  
  Notons dès maintenant qu'en programmation, où on cherche à limiter le jeu de caractères employé,
  le symbole le plus utilisé est la barre verticale | (ASCII 124), parfois doublée.
  Suivant le contexte, il peut noter aussi bien la réunion ensembliste (comme dans les expressions régulières) que la disjonction logique.
  
  Notons au passage les inclusions E⊆ E∪ F, F⊆ E∪ F , et que
  la réunion E∪ F peut être définie comme
  le plus petit ensemble G tel que les deux inclusions E⊆ G et F⊆ G soient vraies.
2. Intersection
  Étant donnés deux ensembles E et F, l'intersection de E et de F est l'ensemble des éléments qui appartiennent simultanément à E et à F.
  
  On voit ici apparaître le "et", la conjonction logique notée traditionnellement ⋀ (par renversement de ⋁).
  On écrit : E ∩ F = { x | x ∈ E ⋀ x ∈ F }
  
  Le signe ∩ (Unicode x2229) est clairement le renversé du symbole de réunion ∪ (Unicode x22C1),
  
  En termes de prédicats associés, il est clair que l'intersection des ensembles correspond à la conjonction des prédicats.
  P_E∩F = P_E ⋀ P_F .
  
  En programmation, le symbole le plus utilisé est l'esperluette & (alias "et commercial", ASCII 38), parfois doublée.
  Suivant le contexte, il peut noter aussi bien l'intersection ensembliste (comme dans les expressions régulières étendues) que la conjonction logique.
  
  Par un hasard malencontreux, on a choisi d'appeler disjoints deux ensembles dont l'intersection est vide (rien à voir avec la disjonction logique !).
  Donc "E et F disjoints" <==> "E∩ F = ∅".
3. Passage au complémentaire
  Le complémentaire d'un ensemble E est formé des éléments qui n'appartiennent pas à E :
  on le note ∁E = { x | x ∉ E }, avec l'opérateur unaire ∁ (Unicode x2201).
  
  En termes de prédicats associés, il est clair que le passage au complémentaire de l'ensemble correspond à la négation du prédicat.
  P_∁E = ¬P_E .
  
  En programmation, nous verrons une notation spécifique pour le complémentaire dans les expressions régulières.
  Plusieurs symboles sont utilisés pour la négation, notamment le tilde et le point d'exclamation.
Lois sur les opérations ensemblistes

Les trois opérations de réunion, d'intersection et de passage au complémentaire ont des propriétés remarquables,
analogues à celles qui permettent de calculer en arithmétique (identités remarquables, etc).
Nous traiterons d'abord celles des deux opérations binaires ∪et ∩, ensuite celle du passage au complémentaire, qui est unaire.

Le caractère binaire de ces opérations est essentiel : d'un point de vue mathématique, une opération n'est rien d'autre qu'une fonction,
et une fonction peut prendre un nombre quelconque d'arguments.
La distinction entre fonction et opération est affaire de connotation et non de dénotation.
Justement, les opérations arithmétiques, qui constituent l'archétype des opérations, sont binaires.
En outre, toute opération à plus de deux argments peut se réaliser comme une composition d'opérations binaires
(de la même manière que toute opération de choix peut se ramener à une composition de choix binaires).
1. Commutativité
  L'union et l'intersection sont commutatives, c'est à dire que A ∪ B = B ∪ A et que A ∩ B = B ∩ A
  quels que soient les ensembles A et B.
  Il suffit de relire les définitions pour constater que l'ordre des opérandes n'intervient pas.
  
  Soulignons que la commutativité est une propriété très forte, que beaucoup d'opérations binaires ne possèdent pas !
  la division des nombres est un bon exemple d'opération binaire non-commutative.
  Nous en verrons bientôt apparaître une autre, portant sur les ensembles de mots...
2. Associativité
  L'union et l'intersection sont associatives, c'est à dire que (A ∪ B)∪C = A ∪ (B ∪C) et que (A ∩ B)∩C = A ∩ (B ∩C)
  quels que soient les ensembles A, B et C.
  Dans ces écritures, la mise entre parenthèses indique l'ordre du calcul :
  - dans (A ∪ B)∪C on calcule d'abord (A ∪ B) avant de l'ajouter à C
  - dans A ∪ (B ∪C) au contraire, on calcule d'abord (B ∪C) avant de l'ajouter à A
  - on voit bien qu'a priori ces deux séquennces de calcul n'ont en général aucune raison de donner le même résultat !
    par exemple, la division n'est pas associative [(x/y)/z = x/y.z est bien différent de x/(y/z)]
  Mais, pour nos deux opérations, il suffit de relire les définitions pour voir que le résultat est bien le même.
  
  L'associativité est une propriété fondamentale qui permet de réorganiser les calculs.
  D'un point de vue de linguiste, on observe ses conséquences pour les notations :
  les parenthèses utilisées pour marquer l'ordre des calculs alourdissent l'écriture, on souhaite s'en débarrasser.
  Justement, l'associativité permet de le faire et d'écrire sans ambiguïté
  - A ∪ B ∪ C pour la valeur commune à (A ∪ B)∪C et à A ∪ (B ∪C)
  - A ∩ B ∩C pour la valeur commune à (A ∩ B)∩C et à A ∩ (B ∩C).
  Pour une opération non associative comme la division, en revanche, une écriture comme "x/y/z" est ambiguë,
  et il faut une règle de précédence pour l'interpréter [en l'occurrence, ce sera "(x/y)/z"].
  Nous reviendrons longuement sur cette question au second semestre.
3. Distributivité
  On sait que l'identité "(a + b) c = ac + bc" manifeste que
  la multiplication est distributive par rapport à l'addition ( et non l'inverse).
  Qu'en est-il de nos deux opérations ensemblistes ?
  
  L'intersection est distributive par rapport à l'union : (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C).
  En effet, dire qu'un élément appartient à la fois à C d'une part et soit à A soit à B d'autre part (1er membre)
  est exactement équivalent à dire qu'il appartient soit à la fois à C et à A, soit à la fois à C et à B (2è membre).
  
  Et réciproquement l'union est distributive par rapport à l'intersection : (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C).
  Pour le voir, montrons successivement les deux inégalités opposées
  [i] (A ∩ B) ∪ C ⊆ (A ∪ C) ∩ (B ∪ C) et [ii] (A ∩ B) ∪ C ⊇ (A ∪ C) ∩ (B ∪ C).
  1. On a évidemment A ∩ B ⊆ A d'où (A ∩ B) ∪ C ⊆ A ∪ C
    et de même A ∩ B ⊆ B entraîne (A ∩ B) ∪ C ⊆ B ∪ C
    par conséquent (A ∩ B) ∪ C est inclus dans l'intersection (A ∪ C) ∩ (B ∪ C).
    [i] est donc établi.
  2. Soit x un élément de l'intersection (A ∪ C) ∩ (B ∪ C).
    Si x ∈ C, alors il figure dans la réunion (A ∩ B) ∪ C.
    Sinon, il doit faire partie de A et de B, sans quoi il ne serait pas dans (A ∪ C) ∩ (B ∪ C)
    on a donc x ∈ (A ∩ B), et là aussi x ∈ (A ∩ B)∪ C.
    [ii] est donc établi, ce qui achève la preuve de la distributivité de ∪ sur ∩.
4. Passage au complémentaire : renversement des inclusions
  Les opérations d'union et d'intersection sont croissantes par rapport à l'inclusion,
  c'est-à-dire que A ⊆ B entraîne A ∪ C ⊆ B ∪C et A ∩ C ⊆ B ∩C.
  
  Le passage au complémentaire est au contraire décroissant :
  A ⊆ B entraîne ∁A ⊇ ∁B.
  Intuitivement, plus un ensemble est gros, plus son complémentaire est petit ...
5. Passage au complémentaire : les lois de De Morgan
  Elles sont souvent formulées en calcul des propositions :
  avec des notations de programmeur ~(a|b) = (~a)&(~b) ; ~(a&b) = (~a)|(~b).
  En notations ensemblistes elles deviennent : [i] ∁(A∪B) = (∁A)∩(∁B) et [ii] ∁(A∩B) = (∁A)∪(∁B).
  1. Être dans le complémentaire de A ∪ B, c'est être ni dans A, ni dans B,
    donc à la fois dans le complémentaire de A et dans celui de B,
    c'est-à-dire dans leur intersection.
  2. Être dans le complémentaire de A ∩ B, c'est ne pas être dans A ∩ B,
    donc c'est être hors de A ou hors de B, c'est-à-dire être dans la réunion (∁A)∪(∁B).
  Les lois de De Morgan peuvent se lire comme l'énoncé d'une dualité entre les deux opérations d'union et d'intersection,
  qui motive les couples de symboles choisis pour les désigner : ∪ et ∩ chez les mathématiciens, ⋁ et ⋀ chez les logiciens.
  Cette dualité n'est plus apparente dans le notations barbares des programmeurs '|' et '&'...
Mots et ensembles de mots
- Mot = chaîne de caractères (String)
  Dans le contexte de la théorie des automates on parle de mots plutôt que de chaînes de caractères.
  Cette notion suppose la donnée d'un alphabet, ensemble de lettres.
  Le reste du vocabulaire est sans surprise :
  - on parle de longueur d'un mot
  - on distingue les différentes occurrences des lettres qui composent le mot.
  Il est un mot particulier, le mot vide, qui ne contient aucune occurrence.
  Plutôt que d'inventer un symbole pour lui (il n'y a pas de tradition majoritaire),
  nous le noterons (comme en programmation) par la chaîne vide : "".
  
  Les mots vont jouer dans ce cours un double rôle :
  1. comme mots "ordinaires", pris dans des textes ;
  2. comme des abstractions symbolisant des séquences de calcul.
  Le lien entre ces deux aspects provient du fait que pour une machine, lire un mot (lettre à lettre, du début à la fin),
  c'est effectuer un certain calcul, dont le caractère séquentiel est indiqué par la succession des lettres composant le mot.
  Un mot est un objet spatial (à une dimension), mais sa lecture lettre après lettre est un processus temporel.
- Concaténation
  Les mots sont faits pour être enchaînés, d'abord deux à deux...
  
  L'opération de concaténation sera écrite ici par simple juxtaposition, sans symbole particulier
  (contrairement à l'usage des langages dee programmation, où elle est notée de diverses manières).
  
  La concaténation est associative : (ab raca) dabra = ab (raca dabra) = abracadabra.
  Mais non-commutative !
  
  Comme le mot concaténation est assez pesant, on le remplace souvent par produit
  (avec en prime l'analogie avec la multiplication).
  
  À l'égard de l'interprétation des mots comme séquences de calcul, la concaténation des mots symbolise l'exécution d'un calcul après l'autre.
  Le caractère spatial de la concaténation se mue ainsi en temporalité.
- Ensembles de mots. Langages
  Toujours dans le contexte de la théorie des automates, on appelle langage un ensemble de mots quelconque
  (sur un alphabet donné). Foin de la distinction entre langue et langage....
  
  Du point de vue de l'interprétation en termes de calcul, un ensemble de mots symbolise une famille de calculs, a priori quelconque.
  L'intention sous-jacente est que cette famille de calculs sera produite par toutes les exécutions possibles d'un programme donné.
  Si on sait décrire la famille de calculs effectués par le programme, on peut espérer mettre en relation la structure du programme
  et celle de la famille en question. Les expressions régulières vont dans ce sens.
  Pour les définir, nous avons besoin d'opérations sur les langages.
  
  Les langages sont manipulables par les opérations ensemblistes que nous venons de rappeler
  et aussi par deux autres qui proviennent de la concaténation des mots.
- Concaténation (ou produit) des langages
  Elle se définit très naturellement à partir de la concaténation des mots.
  Étant donnés deux langages A et B, leur produit AB est défini comme l'ensemble des produits d'un mot de A par un mot de B.
  AB = { ab | a ∈ A, b ∈ B }.
  
  Exemple : A = {ab, raca}, B = {ab, raca,dabra}
  AB = {abab, abraca,abdabra, racaab,racaraca, racadabra}
  
  Si les deux langages A et B ont chacun un nombre fini d'éléments, disons n et p, alors leur produit AB est aussi fini et a au plus np éléments.
  En effet, pour construire le produit des deux langages on effectue un total de np concaténations de mots.
  Dans notre exemple, n = 2, p = 3 et on trouve bien 6 mots dans le produit.
  
  Mais il peut se faire que deux opérations donnent le même résultat ! Le langage-produit contient alors moins de np éléments.
  Exemple : A = B = {a, aa}, AB = {aa,aaa, aaaa}, le mot aaa étant obtenu deux fois.
  En d'autres termes, il arrive qu'un même mot du langage-produit puisse d'écrire de deux manières différentes
  comme concaténation de deux mots des langages composants.
  
  La concaténation des langages est associative (comme celle des mots), mais pas commutative (idem).
  Elle est distributive par rapport à la réunion (comme la mutliplication des nombres par rapport à l'addition) :
  (A ∪ B) C = AC ∪ BC.
  
  En termes de calculs, l'ensemble des séquences décrites par le produit AB est naturellement celui des séquences obtenues
  en effectuant un calcul de B après un calcul de A.
  Le produit des langages symbolise donc l'exécution séquentielle des programmes.
- L'opération étoile (parfois appelée itération)
  Étant donnés un langage A, A* désigne le langage formé de tous les produits de mots de A,
  en nombre quelconque, de 0 à l'infini.
  En graduant par le nombre de facteurs dans le produit, on arrive à l'expression infinie :
  A* = {""} ∪ A ∪ AA ∪ AAA ∪ ... ∪ AA ... A (n fois) ∪....
  
  Exemple :
  { ara, cara }* = { "", ara, cara,
  araara, aracara, caraara, caracara,
  araaraara, araaracara, aracaraara, aracaracara, caraaraara, caraaracara, caracaraara, caracaracara, ...}
  
  N.B. L'opérateur '*' est
  - unaire (un seul argument)
  - postfixé (écrit après son argument)
  - de priorité (ou prédécence) maximale : une expression comme AB* doit être parenthésée A(B*),
    c'est-à-dire que l'étoile opère sur le langage B seulement et non pas sur le produit AB.
  En termes de calculs, l'étoile A* s'obtient en répétant - on dit aussi en itérant - un nombre quelconque de fois le calcul décrit par A.
  Dans les langages de programmtion, cette itération s'écrit sous la forme d'une boucle :
  - le corps de la boucle est décrit par A
  - la boucle tout entière par A*.
Expressions régulières (ou rationnelles)
Muni de ces opérations et de leurs lois, on peut calculer avec les langages, et obtenir de nouveaux langages.
Certains de ces calculs peuvent être décrits sous la forme d'expressions
(de même que les expressions algébriques décrivent certains calculs sur des nombres).
Comme l'expression représente un calcul, on peut lui associer le résultat de ce calcul, qu'on appelle la valeur de l'expression.

Précisément, une expression régulière est une expression de ce type
- où n'interviennent que les opérations d'union, produit et étoile
- où le calcul commence à partir de singletons d'une seule lettre.
La suite du cours va étudier la classe des langages qui peuvent être décrits par des expressions régulières.
Nous pouvons à présent donner un sens précis à cette idée de description :
il s'agit des langages L pour qui il existe une expression E telle que L soit la valeur de E.

Exemple : le langage L = { ab, raca, dabra } est la valeur de l'expression
E = {a}{b} ∪ {r}{a}{c}{a} ∪ {d}{a}{b}{r}{a}.
La plupart du temps, on commet l'abus de notation consistant à assimiler la lettre et le singleton.
En notation de programmeur, notre expression s'écrit alors :
E = ab|raca|dabra.

Exemple : Étude d'une égalité

yx*xy*x (notre calcul) = yxxx* | yxyy*x | yxxx*yy*x (calcul de la machine)

Manipulation qui est à l'origine de cette égalité

Reprenons-la et voyons ce qu'elle nous dit.
1. Notations :
  La barre verticale est ici le symbole de la réunion ensembliste.
  Notre égalité s'écrit en notation des mathématiciens :
  
  yx*xy*x = yxxx* ∪ yxyy*x ∪ yxxx*yy*x
  
  Posons A = yx*xy*x , B = yxxx*, C = yxyy*x, et D = yxxx*yy*x.
  Elle devient A = B∪C∪D.
2. Les trois ensembles B, C et D sont deux à deux disjoints.
  - B∩C = ∅
    car la troisième lettre d'un mot ∈B doit être x, alors que la troisième lettre d'un mot ∈C doit être y.
  - B∩D = ∅
    car un mot ∈B ne contient qu'un seul y (à l'initiale), alors qu'un mot ∈D en contient au moins deux (à la pénultième).
  - C∩D = ∅
    car la troisième lettre d'un mot ∈C doit être y, alors que la troisième lettre d'un mot ∈D doit être x.
3. Les trois ensembles B, C et D sont tous les trois inclus dans A.
  - B⊆A
    Les mots ∈B sont ceux de A pour lesquels on a choisi un nombre nul de y comme contribution du facteur y*.
    En effet, avec cette hypothèse on obtient le sous-ensemble yx*xx, qui est égal à B puisque x*x = xx*,
    c'est à dire l'ensemble { xⁿ | n > 0 }.
  - C⊆A
    Les mots ∈C sont ceux de A pour lesquels on a choisi un nombre non nul de y comme contribution du facteur y*,
    et un nombre nul de x comme contribution du facteur x*.
    En effet, avec ces hypothèses on obtient le sous-ensemble yxyy*x, qui est C,
  - D⊆A
    Les mots ∈D sont ceux de A pour lesquels on a choisi un nombre non nul de y comme contribution du facteur y*,
    et un nombre non nul de x comme contribution du facteur x*.
    En effet, avec ces hypothèses on obtient le sous-ensemble yxx*xyy*x, qui est égal à D puisque x*x = xx*.
  Il s'ensuit que A ⊇ B∪C∪D.
4. Tout élément de A se trouve dans l'un des trois sous-ensembles B, C ou D.
  Les éléments de A sont tous de la forme yxⁿy^px , avec n > 0 (à cause de x*x) et p >= 0.
  En notation ensembliste A = { yxⁿy^px | n > 0, p >= 0 }.
  Dans cette configuration, on peut distinguer trois cas qui épuisent les possibilités :
  1. p = 0, qui correspond à B = { yxⁿx | n > 0 }
  2. p > 0 et n = 1, qui correspond à C = { yxy^px | p > 0 }
  3. p > 0 et n > 1, qui correspond à D = { yxⁿy^px| n > 1, p > 0 }
  Il s'ensuit que A ⊆ B∪C∪D.
5. Des deux inclusions réciproques ...
  A ⊇ B∪C∪D et A ⊆ B∪C∪D nous pouvons déduire l'égalité recherchée :
  A = B∪C∪D.
  Quod erat demonstrandum.
  
  Ajoutons que, puisque les trois sous-ensembles sont disjoints, nous avons affaire à une partition de A.
  Sur cette notion importantissime nous reviendrons plus tard.