Journal Expressions régulières ou expressions rationnelles ?

Posté par sobriquet le 08 janvier 2025 à 22:27. Licence CC By‑SA.

Étiquettes :

jan.

2025

Sommaire

Je partage mon premier journal sur LinuxFr pour partager mes conclusions personnelles sur un débat ancien de plusieurs décennies : faut-il dire "expression rationnelle" ou "expression régulière" ? C'était encore un débat relativement fréquent dans ces colonnes il y a une quinzaine d'années. Il me semblait qu'il s'était éteint avec une victoire de fait du terme "expression régulière", mais je viens d'en voir passer un écho tout récemment : s'agit-il bien d'une victoire légitime ? Tentons une rétrospective.

Aux prémisses de l'informatique : la théorie des langages

Le mathématicien et logicien Stephen Cole Kleene est l'un des ancêtres de l'informatique. Fondateur de la théorie de la calculabilité, c'est lui qui invente les concepts d'expression régulière/rationnelle et de langage régulier, sans doute juste après la fin de la seconde guerre mondiale. Il définit un langage régulier comme un ensemble de mots pouvant être écrits à partir d'un alphabet et de 3 opérations : la concaténation (coller deux lettres ou mots ensembles), l'union ensembliste (avoir le choix entre deux lettres ou mots) et l'étoile de Kleene (répéter une lettre ou un mot un nombre arbitraire de fois).

Un langage régulier permet de décrire tous les mots constructibles par un automate fini, une autre invention toute récente. Il est décrit par une "regular expression". Kleene lu-même ne semble pas très à l'aise avec sa terminologie : Dans un article de 1951, il écrit lui-même, : "We would welcome any suggestions as to a more descriptive term" ("Nous sommes intéressé par toute proposition pour un terme plus descriptif" (section 7, page 49). La première pierre fondatrice de la discorde qui hante les moules de LinuxFr depuis des décennies est posée.

L’intégration de la théorie des langages à la langue française

L'outil Book Ngram Viewer permet de visualiser l'entrée de ces concepts dans la langue française. L'intérêt de la recherche pour ces concepts semble se manifester à partir de 1960 : dans la langue anglaise, l'usage de "rational expression" et "regular expression" se développe, avec quasiment immédiatement une préférence pour la seconde. Dans la langue française, il est difficile de relever une inflexion significative des usages. Néanmoins, "expression régulière" dépasse pour la première fois "expression rationnelle" vers 1960 : ces concepts ont donc probablement bien franchi l'Atlantique à cette date.

Et effectivement, on en trouve trace dans les écrits du chercheur français Marcel-Paul Schützenberger, l'un des pionniers de l'informatique théorique en France. Dans un article de 1959 (pp. 197-202), il présente une analogie entre les langages rationnels et les nombres rationnels : les opérations sont essentiellement les mêmes et, en enrichissant ces langages, on obtient l'analogue des nombres algébriques. Langages rationnels, nombres rationnels, … la boucle est bouclée, la terminologie correct que Kleene appelait de ses vœux est donc bien "expression rationnelle" ! Une expression rationnelle est une expression obtenue par des opérateurs rationnels. Ces opérateurs sont dits rationnels parce qu'ils permettent de générer tous les nombres rationnels et seulement eux. Fin du débat, allez mouler ailleurs.

De la théorie à la pratique : enrichissements et usages modernes

Ce serait bien si c'était si simple. Mais non, le terme "expression rationnelle" ne se répand pas significativement. En 1966, même Schützenberger, le maître et pionnier, utilise "expression régulière" en français dans ses cours (p. 62). Tout ça c'est de la faute des Américains et de leur langue pleine de mots ? En effet, on doit pouvoir admettre qu'à cette date "expression régulière" est un anglicisme, impropre, car "expression rationnelle" donne une représentation plus exacte du concept.

Pire, à partir de 1998, "expression régulière" commence à se répandre et s'impose face à sa concurrente. Pourquoi diantre les Français s'intéressent-ils tout d'un coup à l'informatique théorique et aux algèbres de Kleene ? Un indice : avec un temps d'avance, la tendance est identique en langue anglaise. Cela est bien sûr dû à l'entrée de l'informatique dans nos vies et à la bulle internet. Encore un coup des Américains ? Oui, mais pas que.

En trouvant des applications pratiques, les expressions régulières ont évolué. Elles ont gagné en fonctionnalité, en richesse d'expression, et expriment des langages plus riches que les langages rationnels. Un enrichissement en particulier leur permet de décrire des langages non rationnels : les références arrières (backreference). Exemple : l'expression régulière (a+)b\1 permet de reconnaître tous les mots de la forme aⁿ baⁿ, où les "a" sont répétés n fois à droite et à gauche du "b". Ce langage ne peut pas être décrit à l'aide d'expressions rationnelles classiques. Aujourd’hui, tous les moteurs d'expression régulière intègrent cette fonctionnalité.

Conclusion

En français, dans le contexte qui nous intéresse, les termes "expression régulière" et "expression rationnelle" sont sans doute aussi anciens l'un que l'autre. Bien que "rationnel" et "régulier" soient en général employés de manière synonymes, le premier terme semble préféré en théorie des langages. Au contraire, en informatique appliquée, "régulier" est clairement favorisé. Cette différenciation va de pair avec une nuance sémantique : parfois, on cherche à désigner des langages représentables par des automates finis. D'autres fois, on cherche à désigner des motifs sans se soucier de la théorie sous-jacente.

Il me semble donc pertinent de réserver le terme "expression rationnelle" aux propriétés des langages rationnels, tandis que "expression régulière" s'applique mieux aux outils pratiques. Cette distinction, loin d'être un barbarisme, reflète une évolution des usages adaptée aux besoins des théoriciens et des développeurs.

Et vous, avez-vous des raisons particulières de préférer un terme à l'autre ?

# Échec!

Posté par cosmocat le 09 janvier 2025 à 00:40. Évalué à 2.

A programme de jeu d'échec fonctionnant avec 84688 regexs:

https://nicholas.carlini.com/writing/2025/regex-chess.html
- [^] # Re: Échec!
  
  Posté par cosmocat le 09 janvier 2025 à 00:52. Évalué à 3.
  
  Ok, je viens de voir que c'est en fait l'origine de ce journal
  
  (Du coup, j'en profite pour relire cette magnifique bande des Geekscottes…)
- [^] # Re: Échec!
  
  Posté par arnaudus le 10 janvier 2025 à 14:35. Évalué à 3.
  
  Ah ah, c'est marrant, je viens de faire une partie, mais l'ordi est vraiment très nul :-)
  - [^] # Re: Échec!
    
    Posté par Gil Cot ✔ (site web personnel, Mastodon) le 11 janvier 2025 à 18:47. Évalué à 2.
    
    En même temps c’était annoncé :
    
    will play a (valid; not entirely terrible) move
    
    Et ce n’est pas surprenant : le programme sait déplacer les pièces et ne calcule pas plus d’un coup d’avance (i.e. ça joue le coup noté comme le meilleur mais sans stratégie ni tactique.)
    
    but this time keeping only the position with the highest score according to black (in this example, the f7-f5 response). This is the second half of the minimax search---the one where we look at all of the options where our opponent had a pick the first time around, and now we pick among these the best for us. Finally, from_fen_to_pretty_utf8 converts this position back to the pretty Unicode display format. As a result, I never have to build any explicit search algorithms
    
    Ceci dit, l’exercice est intéressant : il a créé une une pseudo-machine Forth avec parallélisation.
    
    “It is seldom that liberty of any kind is lost all at once.” ― David Hume
    - [^] # Re: Échec!
      
      Posté par arnaudus le 12 janvier 2025 à 23:23. Évalué à 3.
      
      J'ai vu "minimax" dans la page, mais je n'ai pas vu le reste. Mais de ce que j'ai joué, je n'ai pas l'impression que l'ordi joue le minimax sur deux demi-coups. Sur la partie que j'ai jouée, l'ordinateur perdait des pièces en un coup, ce qui n'est pas le comportement attendu.
      
      Mais bon, on est d'accord, ça n'est pas du tout le sujet. L'exploit c'est probablement surtout d'avoir réussi à implémenter l'intégralité des règles (roque, prise en passant, promotion).
      - [^] # Re: Échec!
        
        Posté par Gil Cot ✔ (site web personnel, Mastodon) le 13 janvier 2025 à 01:30. Évalué à 2.
        
        Oui, son « best for us » semble n’être qu’un coup valide (en tout cas pas un demi coup optimal comme le verrait la plupart des humains.)
        Oui, l’exploit est dans la modélisation de la jouabilité (outre les règles, ça vérifie aussi si les coups sont valides) en regex
        
        “It is seldom that liberty of any kind is lost all at once.” ― David Hume
# Ça sonne mieux!

Posté par small_duck (site web personnel) le 09 janvier 2025 à 00:44. Évalué à 8.

Regex, c'est quand même plus joli à prononcer que ratex, non?
- [^] # Re: Ça sonne mieux!
  
  Posté par Benoît Sibaud (site web personnel) le 09 janvier 2025 à 07:51. Évalué à 9.
  
  C'est expra. (Léo Ferré)
- [^] # Re: Ça sonne mieux!
  
  Posté par Sisyphe Plâtrier le 19 janvier 2025 à 19:12. Évalué à 0.
  
  Je préfère aussi ;-)
  
  Mais plus ça va et plus je préfère sciemment utiliser ce raccourci pour l'usage moderne, plutôt qu'une des locutions complètes, qui font débat.
  
  Ça entérine en partie l'usage, tout en m'évitant la dissonance cognitive entre la théorie reflétée dans les deux locutions et ce qui est maintenant désigné par ces locutions.
  
  Donc, je suis pour la promotion de 'regex' (prononcé "régèks", au cas où vous hésitiez)
# inversion

Posté par raphj le 09 janvier 2025 à 07:48. Évalué à 4.

Bien que "régulier" et "rationnel" soient en général employés de manière synonymes, le premier terme semble préféré en théorie des langages. Au contraire, en informatique appliquée, "régulier" est clairement favorisé.

Oups ! Je suppose que tu voulais mettre rationnel en premier. En tout cas je suppose que ça dépend des habitudes selon les endroits et des gens. À la fac de Grenoble, licence math / info, cours Languages et Automates, on disait "expression régulière" et "langage régulier", à tel point que je n'avais pas spécialement conscience que ça se disait aussi expression rationnelle ou langage rationnel. Je ne me souviens plus de ce qu'on disait dans le module Grammaires et Langages du master 1 donné par un chercheur travaillant dans l'équipe getalp (traitement automatique des langues), assez attaché à utiliser les bons mots. Oups. Honte à moi.

De mon côté, je dis expression régulière et jamais rationnelle, mais c'est une préférence très passive : c'est le terme que j'ai toujours rencontré partout, que ce soit dans les tutos ou dans les cours, en majorité du moins. Mais ça m'est un peu égal, ce qui m'importe plus comme d'habitude c'est la bonne compréhension :-)
Ce serait pratique d'avoir un terme pour les expressions régulières de la théorie des langages et un autre pour les expressions régulières de tous les jours (surtout parce que les syntaxes d'expressions régulières comme PCRE sont plus puissantes que les langages réguliers), mais je ne suis pas convaincu que la distinction existe vraiment. En tout cas, on ne peut pas s'y fier.

Très bon journal, merci.
- [^] # Re: inversion
  
  Posté par sobriquet le 09 janvier 2025 à 08:19. Évalué à 1.
  
  Oups ! Je suppose que tu voulais mettre rationnel en premier.
  
  Ah oui ! Pas possible de modifier, malheureusement ! Si un modo charitable veut bien arranger ça…
  - [^] # Re: inversion
    
    Posté par gUI (Mastodon) le 09 janvier 2025 à 08:34. Évalué à 7. Dernière modification le 09 janvier 2025 à 08:36.
    
    Corrigé, merci.
    
    Et comme on est dans le registre du langage, merci de bien vouloir plutôt appeler à "la modération", à "l'équipe de modération", à "un membre de l'équipe de modération", mais pas à "un modérateur".
    
    L'écriture inclusive, ça se travaille au quotidien :)
    
    En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
    - [^] # Re: inversion
      
      Posté par Benoît Laurent (site web personnel) le 09 janvier 2025 à 08:57. Évalué à 1. Dernière modification le 09 janvier 2025 à 08:57.
      
      Je profite de ce fil de correction pour signaler que le lien "Book Ngram Viewer" pointe sur le journal et pas vers https://books.google.com/ngrams/
      - [^] # Re: inversion
        
        Posté par gUI (Mastodon) le 09 janvier 2025 à 10:28. Évalué à 4.
        
        Corrigé également, merci !
        
        En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
# Tentative

Posté par Pol' uX (site web personnel) le 11 janvier 2025 à 14:26. Évalué à 1. Dernière modification le 11 janvier 2025 à 14:27.

Avec du recul on sait que de telles expressions sont isomorphes à un automate.

Par ailleurs elles servent à décrire une grammaire générative.

Pourquoi donc ne pas parler de GAG (grammaire à automate générative ou en anglais generative automated grammar) ?

Le xkcd obligatoire :

Adhérer à l'April, ça vous tente ?
- [^] # Re: Tentative
  
  Posté par Gil Cot ✔ (site web personnel, Mastodon) le 11 janvier 2025 à 19:15. Évalué à 2.
  
  Pour favoriser l’adoption du nouveau nom, ne pas oublier de le préfixer de 9 …pour nouvelle/new et neuvième/nineth et surtout que non/not/nein ce n’est pas ce que le sigle peut laisser croire.
  
  “It is seldom that liberty of any kind is lost all at once.” ― David Hume
# de la raison ou de la régularité

Posté par Gil Cot ✔ (site web personnel, Mastodon) le 11 janvier 2025 à 19:10. Évalué à 2.

Ma préférence va à « expression(s) rationnelle(s) » car cela m’évoque justement les automates finis. Et pour ne rien arranger, j’ai fricoté avec la théories des langages et trop de maths théoriques.
De l’autre côté, « expression(s) régulière(s) » fait toujours dévier mon esprit sur la régularité et je ne la trouve pas, comme avec un métronome ou une révolution planétaire ou une suite numérique…
Typiquement, quand je prends par exemple la fonctionnalité de rechercher-remplacer automatiquement-toutes-les-occurrences, quand il s’agit d’un mot fixe alors le remplacement est régulier dans mon esprit. Par contre, quand le/la terme/expression à remplacer est défini par une formule (abrégée « regexp »), alors dans mon esprit, on ne travaille plus sur quelque chose de régulièrement stable/fixe mais sur une myriade définie/balisée rationnellement comme le serait une application mathématique…

“It is seldom that liberty of any kind is lost all at once.” ― David Hume

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.