<h2>1 Introduction</h2> <p align="justify" class="western">&nbsp;</p> <p align="justify">L&#39;oeuvre de Zipf est avant tout une qu&ecirc;te d&#39;universalit&eacute; dans une tentative de d&eacute;finir un cadre th&eacute;orique autour du principe du moindre effort m&ecirc;me si ce dernier ne proposera aucune math&eacute;matisation de son principe. Le travail d&rsquo;ing&eacute;nierie autour de la linguistique rappelle que de nombreux math&eacute;maticiens et ing&eacute;nieurs s&rsquo;int&eacute;ressent &agrave; la linguistique en qu&ecirc;te de solutions technologiques comme le rappelle Mandelbrot<sup>1 </sup>dans les Constantes chiffr&eacute;es du discours. Le travail d&rsquo;Estoup et Condon vont en ce sens. En effet, &agrave; la notion de discours est associ&eacute;e deux probl&egrave;mes technologiques &agrave; savoir la cryptographie et la st&eacute;nographie. La loi de Zipf interroge avec singularit&eacute; cette notion entre rang et fr&eacute;quence. Elle repose avant tout sur l&#39;exp&eacute;rimentation qui conduit &agrave; un triptyque autour de la mod&eacute;lisation: l&#39;exp&eacute;rimentation, la prise en compte du contexte et la formalisation, c&#39;est-&agrave;-dire sa math&eacute;matisation. De l&rsquo;observation du monde r&eacute;el se pose la probl&eacute;matique de son p&eacute;rim&egrave;tre et de sa formalisation. Sur ce dernier point, nous verrons que la discussion autour des param&egrave;tres est une caract&eacute;ristique invitant aux d&eacute;bats autour des mod&egrave;les Zipfiens. S&#39;il est commun de d&eacute;finir le mod&egrave;le comme une repr&eacute;sentation partielle du monde, nous avons choisi une approche plus r&eacute;flexive en pr&ocirc;nant le mod&egrave;le comme une repr&eacute;sentation cognitive de ce monde. Les mod&egrave;les seraient alors une invitation au dialogue pour mieux les comprendre &agrave; travers le langage commun des math&eacute;matiques. Pour cela, nous proposons une repr&eacute;sentation des mod&egrave;les Zipfiens &agrave; travers une math&eacute;matique commune afin de mieux appr&eacute;hender l&#39;intelligibilit&eacute; des mod&egrave;les. Rendre ces mod&egrave;les intelligibles permet de mieux en saisir les notions et les concepts sous-jacents et de produire des repr&eacute;sentations partag&eacute;es des mod&egrave;les Zipfiens. D&#39;un point de vue &eacute;pist&eacute;mologique, si la fonction d&#39;intelligibilit&eacute; des mod&egrave;les ne pose pas ici d&eacute;bat, le principe de rationalit&eacute; m&eacute;rite une plus grande attention. En effet, ce principe suppose une formalisation de l&#39;observable. Pourtant &agrave; un m&ecirc;me ph&eacute;nom&egrave;ne Zipfien, plusieurs mod&egrave;les se sont construits, co-construit voir confront&eacute;s. La controverse entre Mandelbrot et Simon &agrave; travers une s&eacute;rie d&#39;articles a produit une discussion argument&eacute;e avec des &eacute;l&eacute;ments divergents montrant l&#39;importance du contexte.</p> <p align="justify">Edward Uhler Condon (1902-1974), physicien nucl&eacute;aire, travaillant au laboratoire Bell T&eacute;l&eacute;phone publie en 1928 un article dans la revue Science (Condon, 1928) o&ugrave; il fait part d&rsquo;&eacute;tudes sur le vocabulaire sur diff&eacute;rents corpus anglo-saxons. Apr&egrave;s avoir ordonn&eacute; les mots par fr&eacute;quence d&eacute;croissante (voir la figure 1 ci-dessous extraite de son article) sur un graphique avec une &eacute;chelle bi-logarithmique (<i>log</i> <i>n</i> , <i>log</i> <i>f (n)</i>) il met en exergue une droite appel&eacute;e courbe ou droite de Zipf.</p> <p>&nbsp;</p> <p style="text-align: center;"><img height="454" src="https://www.numerev.com/img/ck_973_17_image-20220508210227-1.png" width="460" /></p> <p style="text-align: center;">Figure 1 Premi&egrave;re repr&eacute;sentation de la courbe Zipfienne</p> <p align="justify">Pour appr&eacute;hender ces r&eacute;gularit&eacute;s statistiques textuelles, explicitons deux m&eacute;thodes de calcul mobilisant cette loi dans des disciplines relevant des SHS&nbsp;: l&rsquo;&eacute;tude des manuscrits anciens, l&rsquo;arch&eacute;ologie. Il s&rsquo;agit d&rsquo;exemples concrets de mise en &oelig;uvre d&rsquo;une d&eacute;marche que l&rsquo;on qualifie de Zipfienne dans des contextes diff&eacute;rents. La premi&egrave;re application n&eacute;cessite une ma&icirc;trise dans l&rsquo;ing&eacute;nierie de la num&eacute;risation des documents. En effet il s&rsquo;agit de pr&eacute;senter une m&eacute;thode pour indexer et identifier les textes anciens, c&rsquo;est-&agrave;-dire analyser les caract&eacute;ristiques ou plus g&eacute;n&eacute;ralement l&rsquo;aspect de l&rsquo;&eacute;criture. De nombreuses &eacute;tudes utilisant diff&eacute;rentes m&eacute;thodes traitent de l&rsquo;identification des scripteurs sur des textes anciens. Dans cette &eacute;tude (Pareti &amp; Vincent 2006) apr&egrave;s num&eacute;risation des manuscrits, il nous faut d&eacute;finir des motifs et les &eacute;tiqueter avec un nombre de symboles raisonnables. Des &eacute;tudes pr&eacute;c&eacute;dentes ont d&eacute;montr&eacute; que la loi de Zipf &eacute;tait v&eacute;rifi&eacute;e dans le cas des images avec diff&eacute;rents niveaux de gris. La construction de la courbe de Zipf n&rsquo;est pas v&eacute;rifi&eacute;e sur tout le manuscrit mais peut &ecirc;tre approxim&eacute;e par quelques segments de droite. Ces zones sont alors interpr&eacute;t&eacute;es et il possible de d&eacute;finir des similarit&eacute;s entre les textes en mesurant des distances entre les segments identifi&eacute;s par cette courbe.</p> <p align="justify">La deuxi&egrave;me m&eacute;thode s&rsquo;int&eacute;resse &agrave; une langue ancienne &eacute;teinte le Meriotic<sup>2</sup> qui n&rsquo;est toujours pas d&eacute;chiffr&eacute;e. Apr&egrave;s avoir d&eacute;fini et index&eacute; (Reginald&amp; Bouchet, 2007) des motifs scripturales<sup>3</sup> (pouvant s&rsquo;apparenter &agrave; certains lettres grecques ou hi&eacute;roglyphes &eacute;gyptiens) il a &eacute;t&eacute; n&eacute;cessaire de d&eacute;finir un s&eacute;parateur de mot et enfin construire une entit&eacute; d&eacute;finissant un texte<sup>4</sup> Le texte est alors un ensemble quelconque de symboles organis&eacute;s de fa&ccedil;on topologique. L&rsquo;objectif est de voir si l&rsquo;on observe des r&eacute;gularit&eacute;s statistiques dans la fr&eacute;quence des mots que l&rsquo;on a au pr&eacute;alable &eacute;tiquet&eacute;es. L&rsquo;&eacute;tude conclut que le m&eacute;ro&iuml;tique, bien qu&#39;il ne soit pas d&eacute;chiffr&eacute; se comporte statistiquement comme toutes les autres langues humaines avec une distribution Zipfienne (rang fr&eacute;quence) des mots.</p> <p align="justify">Les deux approches consid&egrave;rent le texte comme un ensemble de mots dispos&eacute;s de fa&ccedil;on non al&eacute;atoire et &eacute;tant le moyen le plus utilis&eacute; pour communiquer entre les hommes. Plus pr&eacute;cis&eacute;ment dans le premier exemple la d&eacute;marche fait l&rsquo;hypoth&egrave;se qu&rsquo;au-del&agrave; du sens, des informations non s&eacute;mantiques sont contenues dans l&rsquo;&eacute;criture. Dans le deuxi&egrave;me il suppose que ce qui appara&icirc;t &ecirc;tre un texte est en fait la transcription d&rsquo;une langue suppos&eacute;e &eacute;crite. Il existe en effet de nombreuses langues qui n&rsquo;ont pas d&rsquo;&eacute;criture (Tchicaya U Tamm&rsquo;Si 1964).</p> <p>La premi&egrave;re partie de cet article pr&eacute;sentera la loi de Zipf et les trois mod&egrave;les historiques explicatifs Zipfiens pr&eacute;sent&eacute;s avec un formalisme math&eacute;matique commun. Cela am&egrave;ne une discussion autour du coefficient g&eacute;n&eacute;ralement d&eacute;sign&eacute; par la lettre grecque &laquo;&nbsp;beta&nbsp;&raquo; de la loi qui s&rsquo;apparente &agrave; une constante (voisine de 1) lors des exp&eacute;rimentations. Cette constante se calcule diff&eacute;remment suivant les mod&egrave;les. La pr&eacute;sentation d&rsquo;une pol&eacute;mique entre Simon et Mandelbrot permet de mieux comprendre par la suite les d&eacute;bats toujours actuels autour de la loi. En effet tr&egrave;s souvent, du fait de la multidisciplinarit&eacute;, la nature de l&rsquo;objet &eacute;tudi&eacute; est impr&eacute;cise. Cette diversit&eacute; d&rsquo;approches am&egrave;ne &agrave; faire dialoguer les mod&egrave;les. La deuxi&egrave;me partie portera d&rsquo;une part sur la multidisciplinarit&eacute; de cette loi &agrave; travers une &eacute;tude bibliom&eacute;trique, et d&rsquo;autre part, sur l&rsquo;&eacute;tude des variations lexicales des &eacute;nonc&eacute;s de la loi de Zipf &agrave; travers les titres des articles scientifiques provenant des m&eacute;tadonn&eacute;es du WoS et de Scopus. Enfin en conclusion nous ferons le postulat que la loi de Zipf interpelle aussi bien dans le domaine des lois de la nature que dans les sciences humaines et sociales et nous conclurons sur une r&eacute;flexion autour des notions de loi et de mod&egrave;les en science humaine et sociale.</p> <p>&nbsp;</p> <h2>2 Loi de Zipf et les principaux mod&egrave;les Zipfiens</h2> <h3>L&#39;origine de la loi de Zipf</h3> <p align="justify" class="western">La loi de Zipf &eacute;nonc&eacute;e en 1949 (Zipf, 1949) sur les r&eacute;gularit&eacute;s statistiques de la langue, est une loi surprenante &agrave; plus d&rsquo;un titre. Elle v&eacute;hicule de nombreuses origines tout en alimentant plusieurs controverses. R&eacute;siliente dans le temps, elle s&rsquo;applique &agrave; divers champs disciplinaires en pr&eacute;sentant par essence un aspect pluridisciplinaire (Bertin &amp; Lafouge, 2020). Mod&eacute;lisation math&eacute;matique partant d&rsquo;une &eacute;nonciation du principe du moindre effort pour certains, observations d&rsquo;ing&eacute;nieur pour d&rsquo;autres (Condon, 1928), elle est interrog&eacute;e sur son sens, sa nature en tant que loi, ainsi que sur la port&eacute;e de son universalit&eacute;.</p> <p>&Agrave; l&#39;origine l&#39;&eacute;nonc&eacute; math&eacute;matique de cette loi met en exergue les r&eacute;gularit&eacute;s statistiques des mots dans un texte. Si les mots du texte sont class&eacute;s par rang (not&eacute; <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />) de fr&eacute;quence d&eacute;croissante, la relation suivante est v&eacute;rifi&eacute;e :</p> <p><img alt="egin{equation} p_{r}= frac {K} {r^{eta}} quad r =1 dots V quad eta &gt; 0 ~~~~~~~~~~~~ (1)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p_%7Br%7D%3D%20%5Cfrac%20%7BK%7D%20%7Br%5E%7B%5Cbeta%7D%7D%20%5Cquad%20r%20%3D1%20%5Cdots%20V%20%5Cquad%20%5Cbeta%20%3E%200%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%281%29%5Cend%7Bequation%7D" /></p> <p><img alt="p_{r}" src="https://latex.codecogs.com/gif.latex?p_%7Br%7D" /> est la probabilit&eacute; d&#39;occurence du mot de rang <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />, l&#39;exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est voisin de 1, <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est &eacute;gal &agrave; la taille du lexique, et <img alt="K" src="https://latex.codecogs.com/gif.latex?K" /> est une constante de normalisation.</p> <p>La validation de la loi s&rsquo;inscrit alors dans une d&eacute;marche classique des statistiques en Sciences Humaines et Sociales (Bressoux, 2010) qui consiste chaque fois que les donn&eacute;es s&rsquo;y pr&ecirc;tent &agrave; construire, puis ajuster une distribution empirique par une distribution th&eacute;orique encore appel&eacute;e loi de probabilit&eacute; qui permet d&rsquo;ajuster un ph&eacute;nom&egrave;ne observable et intemporel. De tr&egrave;s nombreuses exp&eacute;rimentations ont &eacute;t&eacute; men&eacute;es sur des textes de types vari&eacute;s, de diff&eacute;rents genres (roman, essai, th&eacute;&acirc;tre&hellip;) de diff&eacute;rents auteurs (textes &eacute;crits), ou locuteurs (textes &eacute;nonc&eacute;s), dans de nombreuses langues.</p> <h3>Les mod&egrave;les explicatifs historiques</h3> <p>Les trois mod&egrave;les explicatifs historiques de la loi de Zipf sont pr&eacute;sent&eacute;s chronologiquement:</p> <ol> <li> <p>le mod&egrave;le communicationnel (1952);</p> </li> <li> <p>le mod&egrave;le stochastique (1955);</p> </li> <li> <p>le mod&egrave;le graphom&eacute;trique (1957).</p> </li> </ol> <p>Les mod&egrave;les graphom&eacute;triques et communicationnels ont pour seul objectif d&#39;expliquer cette loi. Le mod&egrave;le stochastique est plus g&eacute;n&eacute;ral. Les trois sont des mod&egrave;les math&eacute;matiques. Nous mettons dans ce paragraphe l&#39;accent sur les concepts sous-jacents en formulant &agrave; minima le d&eacute;veloppant math&eacute;matique n&eacute;cessaire pour mieux les appr&eacute;hender.</p> <h4>Mod&egrave;le communicationnel</h4> <p align="justify" class="western">Dans sa th&egrave;se de doctorat (Mandelbrot, 1952), Mandelbrot<sup> </sup>pr&eacute;cise sa position &eacute;pist&eacute;mologique sur la langue en s&rsquo;inscrivant dans la continuit&eacute; des travaux du linguiste suisse Ferdinand de Saussure. Il souhaite alors &eacute;largir sa th&eacute;orie. Il consid&egrave;re la langue comme une s&eacute;quence al&eacute;atoire d&rsquo;entit&eacute;s concr&egrave;tes, et propose une estimation des probabilit&eacute;s de celles-ci.</p> <p align="justify" class="western">Selon lui les nombreuses &eacute;tudes faites par Zipf sur les distributions confirment quantitativement l&rsquo;hypoth&egrave;se de de Saussure sur la langue : elle peut &ecirc;tre per&ccedil;ue comme une construction d&rsquo;une suite de mots. N&eacute;anmoins il pense que de Saussure va trop loin dans sa construction et n&eacute;glige l&rsquo;adaptation du message &agrave; son support lors de sa transmission. Les travaux de Zipf sur l&#39;origine de la loi stipulent qu&rsquo;il existe un compromis entre les efforts du locuteur et celui de l&#39;auditeur lors d&#39;un processus de communication. Cette hypoth&egrave;se est souvent formul&eacute;e avec le principe du moindre effort qui historiquement est li&eacute; &agrave; cette loi (Chang, 2016). &nbsp;</p> <p align="justify" class="western">En 1953 Mandelbrot traduit math&eacute;matiquement cette hypoth&egrave;se (Mandelbrot, 1953) en s&#39;appuyant sur la th&eacute;orie de l&#39;information de Shannon. L&rsquo;id&eacute;e qui pr&eacute;side &agrave; ce mod&egrave;le est que les mots de faible longueur sont plus fr&eacute;quents, id&eacute;e &eacute;mise d&eacute;j&agrave; par Zipf, car ils n&eacute;cessitent moins d&rsquo;effort pour le locuteur. Il traduit cette hypoth&egrave;se en minimisant <font style="font-size:14pt"><font size="4"><i>C</i></font></font><i> le</i> co&ucirc;t moyen, soit la quantit&eacute; moyenne d&rsquo;effort par unit&eacute; d&rsquo;information :</p> <p><br /> <img alt="egin{equation} C =frac{Ef}{Ht} ~~~~~~~~~~~~ (2)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20C%20%3D%5Cfrac%7BEf%7D%7BHt%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%282%29%5Cend%7Bequation%7D" /></p> <p>o&ugrave; <font style="font-size:14pt"><font size="4"><i>E</i></font></font><sub><font style="font-size:14pt"><font size="4"><i>f</i></font></font></sub> est la quantit&eacute; d&rsquo;effort n&eacute;cessaire pour coder/d&eacute;coder, c&rsquo;est-&agrave;-dire communiquer, et <font style="font-size:14pt"><font size="4"><i>H</i></font></font><sub><font style="font-size:14pt"><font size="4"><i>t&nbsp;</i></font></font></sub><font style="font-size:14pt"><font size="4"><i> </i></font></font>l&rsquo;entropie de la distribution des fr&eacute;quences des mots du texte c&rsquo;est-&agrave;-dire la quantit&eacute; d&rsquo;information du message. Si <font style="font-size:14pt"><font size="4"><i>p</i></font></font><sub><font style="font-size:14pt"><font size="4"><i>r</i></font></font></sub> d&eacute;signe la probabilit&eacute; d&rsquo;un mot de rang <i>r</i>, il d&eacute;finit ces deux quantit&eacute;s par les &eacute;quations :</p> <p><img alt="egin{equation} Ht= sum _{r=1}^{r=V} p_{r}. log ( p_{r}) ~~~~~~~~~~~~ (3)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20Ht%3D%20%5Csum%20_%7Br%3D1%7D%5E%7Br%3DV%7D%20p_%7Br%7D.%20%5Clog%20%28%20p_%7Br%7D%29%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%283%29%5Cend%7Bequation%7D" /></p> <p><img alt="egin{equation} Ef= sum _{r=1}^{r=V} p_{r}. log_{M} (r) ~~~~~~~~~~ (4)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20Ef%3D%20%5Csum%20_%7Br%3D1%7D%5E%7Br%3DV%7D%20p_%7Br%7D.%20%5Clog_%7BM%7D%20%28r%29%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%284%29%5Cend%7Bequation%7D" /></p> <p>o&ugrave; <i>log</i><sub><i>M</i></sub><sub> </sub> est le logarithme de base <i>M</i>. <i>M</i> est le nombre de caract&egrave;res hormis les s&eacute;parateurs. Son hypoth&egrave;se le conduit &agrave; calculer l&#39;exposant <font face="Symbol, serif"><i>&beta;</i></font> de la loi&nbsp;:</p> <p><img alt="egin{equation} eta =frac{Ht} {Ef}~~~~~~~~~~~~ (5)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D%5Cfrac%7BHt%7D%20%7BEf%7D%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%285%29%5Cend%7Bequation%7D" /></p> <p>label{beta}</p> <h4>Mod&egrave;le Stochastique</h4> <p align="justify" class="western">Simon (Simon, 1955) publie un article&nbsp;sur une classe singuli&egrave;re de distributions statistiques dans des domaines vari&eacute;s : linguistique, scientom&eacute;trie, g&eacute;ographie, &eacute;conomie, biologie. Ces distributions ont une forme caract&eacute;ristique de J renvers&eacute; avec une longue tra&icirc;ne. Elles sont &agrave; l&rsquo;oppos&eacute; des distributions en cloche dites &laquo;&nbsp;normales&nbsp;&raquo;. Il cite cinq exemples c&eacute;l&egrave;bres :</p> <ul> <li> <p>distributions des mots dans les textes;</p> </li> <li> <p>distributions des articles des chercheurs, appel&eacute;e loi de Lotka en scientom&eacute;trie (Lotka, 1926);</p> </li> <li> <p>distributions des habitants dans les villes en g&eacute;ographie, observ&eacute;es par (Auerbach, 1913) d&egrave;s 1913;</p> </li> <li> <p>distributions du montant des salaires en &eacute;conomie, appel&eacute;e loi Pareto en &eacute;conomie (De Pareto, 1895);</p> </li> <li> <p>distributions des g&egrave;nes dans les esp&egrave;ces en biologie (Good,1953)<sup>4</sup>.</p> </li> </ul> <p><br /> Hormis leurs caract&eacute;ristiques statistiques ces distributions n&rsquo;ont aucun point commun. Il fait l&rsquo;hypoth&egrave;se que ces distributions empiriques ont pour densit&eacute; une fonction puissance inverse :<br /> &nbsp;&nbsp; &nbsp;<br /> <img alt="egin{equation} p_{f} = frac{H} {f^{alpha}} quad f=1,2 dots quad alpha &gt;1 ~~~~~~~~~~~~ (6)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p_%7Bf%7D%20%3D%20%5Cfrac%7BH%7D%20%7Bf%5E%7B%5Calpha%7D%7D%20%5Cquad%20f%3D1%2C2%20%5Cdots%20%5Cquad%20%5Calpha%20%3E1%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%286%29%5Cend%7Bequation%7D" /></p> <p>o&ugrave; pour la distribution des mots, <font style="font-size:14pt"><font size="4"><i>p</i></font></font><sub><font style="font-size:14pt"><font size="4"><i>f</i></font></font></sub><i> </i>est la probabilit&eacute; d&#39;occurrence d&#39;un mot de fr&eacute;quence <i>f, </i><font face="Symbol, serif"><i>&alpha;</i></font><i> </i>l&rsquo;exposant de la fonction puissance <i>et H </i>une constante<i>.</i></p> <p>La formule (1) de la loi de Zipf inscrit celle-ci dans cette classe de distributions. N&eacute;anmoins si cette formule, et la formulation de Simon, concernent les puissances inverses, leurs &eacute;critures sont diff&eacute;rentes, elles sont &eacute;quivalentes uniquement pour les fr&eacute;quences &eacute;lev&eacute;es. Dans ce cas on montre la relation :</p> <p><img alt="egin{equation} eta approx frac{1}{alpha -1} ~~~~~~~~~~~~ (7)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%5Capprox%20%5Cfrac%7B1%7D%7B%5Calpha%20-1%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%287%29%5Cend%7Bequation%7D" /></p> <p>Simon construit un mod&egrave;le g&eacute;n&eacute;rique pour expliquer ce type de distribution : il choisit la distribution des mots, un exemple comme un autre selon lui. La langue n&#39;a pas de caract&egrave;re sp&eacute;cifique C&#39;est une construction sociale comme une autre. Il s&#39;inspire des travaux du statisticien Yule (Yule, G. U. (1925)) pr&eacute;curseur de la th&eacute;orie des processus stochastiques. Il utilise une variante de la th&eacute;orie de l&#39;&eacute;volution &quot;so called birth or birth and death&quot;. Il consid&egrave;re le texte comme une succession de mots produits au cours du temps, les uns apr&egrave;s les autres. Il fait deux hypoth&egrave;ses :</p> <ul> <li> <p>La premi&egrave;re concerne la r&eacute;utilisation d&rsquo;un mot. Apr&egrave;s avoir produit <i>k</i> mots, il suppose que la probabilit&eacute; que le (<i>k</i>+<font style="font-size:10pt"><font size="2">1</font></font>)<sup><font style="font-size:9pt"><font size="2">&egrave;me</font></font></sup> mot produit ait une fr&eacute;quence <i>f</i>, soit proportionnelle au nombre total d&rsquo;occurrences des <i>k</i> mots pr&eacute;c&eacute;dents de fr&eacute;quence <i>f</i>.</p> </li> <li> <p class="western">La deuxi&egrave;me hypoth&egrave;se stipule qu&rsquo;il existe une probabilit&eacute; constante que le (<i>k </i>+<font style="font-size:10pt"><font size="2">1</font></font>)<sup><font style="font-size:9pt"><font size="2">&egrave;me</font></font></sup>&nbsp; mot soit nouveau, c&rsquo;est-&agrave;-dire non apparu dans les <i>k</i> premiers.</p> </li> </ul> <p>Ces deux hypoth&egrave;ses d&eacute;crivent un processus o&ugrave; la probabilit&eacute; qu&rsquo;un mot apparaisse dans le texte d&eacute;pend des mots qui sont ant&eacute;rieurement pr&eacute;sents. Simon va alors calculer<sup><font style="font-size:9pt"><font size="2">5</font></font></sup> le param&egrave;tre <font face="Symbol, serif"><i>&alpha;</i></font> et donc le param&egrave;tre <font face="Symbol, serif"><i>&beta;</i></font>:</p> <p><img alt="egin{equation} eta =1-frac{V}{T} ~~~~~~~~~~~~ (8)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D1-%5Cfrac%7BV%7D%7BT%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%288%29%5Cend%7Bequation%7D" /></p> <p>o&ugrave; <font style="font-size:14pt"><font size="4"><i>V</i></font></font> est la taille du lexique et <font style="font-size:14pt"><font size="4"><i>T</i></font></font> le nombre total de mots du texte.</p> <h4>Mod&egrave;le graphom&eacute;trique</h4> <p align="justify" class="western">L&rsquo;hypoth&egrave;se d&rsquo;optimisation de Mandelbrot a &eacute;t&eacute; tr&egrave;s vite contest&eacute;e. Ne s&rsquo;agit-il pas tout simplement d&rsquo;un simple artefact statistique, en rien sp&eacute;cifique au langage naturel ?</p> <p align="justify" class="western"><font color="#000000">En 1957 </font><em><font color="#000000"><span style="font-style:normal">Miller</span></font></em><font color="#000000"> soul&egrave;ve la question. Il imagine (Miller, 1957) un singe tapant au hasard sur une machine &agrave; &eacute;crire comportant </font><font color="#000000"><i>M</i></font><font color="#000000"> touches. Il suppose que toutes les touches du clavier, hormis la touche chariot, ont la m&ecirc;me chance d&rsquo;&ecirc;tre tap&eacute;es.</font></p> <p align="justify" class="western">Il note <font face="Symbol, serif">&nu;</font> cette probabilit&eacute; o&ugrave; l&rsquo;on a&nbsp;: <font face="Symbol, serif">&nu;</font>.<font style="font-size:14pt"><font size="4"><i>M</i></font></font> &lt; 1.</p> <p>La probabilit&eacute; d&rsquo;&eacute;crire un mot de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> est alors une loi g&eacute;om&eacute;trique :</p> <p><img alt="egin{equation} P(L) = (1-M. u) (M. u)^{L} quad L=0,1,2 dots ~~~~~~~~~~~~ (9)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20P%28L%29%20%3D%20%281-M.%5Cnu%29%20%28M.%5Cnu%29%5E%7BL%7D%20%5Cquad%20L%3D0%2C1%2C2%20%5Cdots%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%289%29%5Cend%7Bequation%7D" /></p> <p align="justify" class="western">Un texte est la juxtaposition de caract&egrave;res occupant chacun le m&ecirc;me espace. C&rsquo;est une suite de mots de longueur <font style="font-size:14pt"><font size="4"><i>L</i></font></font> variable, s&eacute;par&eacute;s par un caract&egrave;re sp&eacute;cifique. Supposons que les mots soient class&eacute;s par rang de fr&eacute;quences d&eacute;croissantes comme le fait Zipf.</p> <p align="justify" class="western">Si L= 2 le rang <i>r</i> d&rsquo;un tel mot v&eacute;rifie alors l&rsquo;in&eacute;galit&eacute; :<i> M</i> &lt; <i>r</i> &lt; <i>M</i> + <i>M</i><sup>2</sup></p> <p class="western">Plus g&eacute;n&eacute;ralement si <i>r</i>(L<i>)</i> d&eacute;signe le rang d&rsquo;un mot de longueur <font style="font-size:14pt"><font size="4"><i>L</i></font></font> on a l&rsquo;in&eacute;galit&eacute; :</p> <p><img alt="egin{equation} M+M^{2} dots M^{L-1}&lt;r(L)&lt;M+M^2 + dots M{^L} ~~~~~~~~~~~~ (10)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20M+M%5E%7B2%7D%20%5Cdots%20M%5E%7BL-1%7D%3Cr%28L%29%3CM+M%5E2%20+%20%5Cdots%20M%7B%5EL%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%2810%29%5Cend%7Bequation%7D" /></p> <p>Soit un mot quelconque <img alt="w" src="https://latex.codecogs.com/gif.latex?w" /> de rang <img alt="r(w)" src="https://latex.codecogs.com/gif.latex?r%28w%29" />,&nbsp; Miller d&eacute;duit<sup><font style="font-size:9pt"><font size="2">6</font></font></sup> des &eacute;quations <strong><span style="font-weight:normal">(9) et (10)</span></strong> le r&eacute;sultat (voir&nbsp;<font face="Liberation Serif, serif">Miller, G. A. (1957))</font> :</p> <p><img alt="egin{equation} p(w)= frac{k}{(b +r(w))^{eta} } ~~~~~~~~~~~~ (11)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p%28w%29%3D%20%5Cfrac%7Bk%7D%7B%28b%20+r%28w%29%29%5E%7B%5Cbeta%7D%20%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%2811%29%5Cend%7Bequation%7D" /></p> <p>o&ugrave; <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> et <img alt="b" src="https://latex.codecogs.com/gif.latex?b" /> sont des constantes, et l&rsquo;exposant est :</p> <p><img alt="egin{equation} eta =-frac{log( u)}{log(M)} ~~~~~~~~~~~~ (12)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D-%5Cfrac%7B%5Clog%28%5Cnu%29%7D%7B%5Clog%28M%29%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%2812%29%5Cend%7Bequation%7D" /></p> <p align="justify" class="western"><span style="line-height:100%">Cette d&eacute;monstration connait des variantes et est souvent mise en avant pour d&eacute;montrer la loi de Zipf.</span><font color="#000000"> </font></p> <p align="justify" class="western"><font color="#000000">On remarquera que l&rsquo;&eacute;quation </font><strong><font color="#000000"><span style="font-weight:normal">(11) est diff&eacute;rente de l&#39;&eacute;quation</span></font></strong><strong><font color="#000000"> (</font></strong><strong><font color="#000000"><span style="font-weight:normal">1)</span></font></strong><strong> </strong><font color="#000000">puisque l&#39;on a fait une translation de </font><font color="#000000"><i>b</i></font><font color="#000000"> sur le rang. Mandelbrot d&egrave;s 1952 pr&eacute;cise la loi (Voir Figure 3 ci-dessous extrait de Mandelbrot B. (1968) ) avec cette translation. On parle de la loi de Zipf-Mandelbrot. On aura compris que dans ce mod&egrave;le c&rsquo;est la combinaison de la graphie qui est en jeu et non directement la langue.</font></p> <p align="justify" class="western">&nbsp;</p> <p class="western" style="text-align: center;"><img height="773" src="https://www.numerev.com/img/ck_973_17_image-20220508211850-2.png" width="784" /></p> <p style="text-align: center;">&nbsp;</p> <p style="text-align: center;">Figure 3&nbsp;: Loi de Zipf et Zipf-Mandelbrot</p> <h3>Le param&egrave;tre <font face="Symbol, serif"><i>&beta;</i></font></h3> <p align="justify" class="western"><span style="line-height:100%">Cette loi singuli&egrave;re est caract&eacute;ris&eacute;e par un seul param&egrave;tre, l&rsquo;exposant <font face="Symbol, serif"><i>&beta; </i></font>de la distribution (rang fr&eacute;quence). Il a attir&eacute; l&#39;attention des chercheurs. Il ne faut pas oublier que les pr&eacute;curseurs et Zipf dans son ouvrage, ont propos&eacute; la simple relation vue en introduction avec le graphe de Condon o&ugrave; <font face="Symbol, serif"><i>&beta; </i></font>est &eacute;gal &agrave; 1 et&nbsp; <i>K</i>&nbsp; est une constante.</span></p> <p align="justify" class="western">&nbsp;On sait que sa valeur varie peu dans les exp&eacute;rimentations, elle est rarement inf&eacute;rieure &agrave; 0,9 ou sup&eacute;rieure &agrave; 1,3. Statistiquement, elle caract&eacute;rise la vari&eacute;t&eacute; du vocabulaire dans l&rsquo;utilisation des mots. <font face="Symbol, serif"><i>&beta; </i></font>grand signifie une utilisation de mots fortement concentr&eacute;e sur les mots fr&eacute;quents,&nbsp;<font face="Symbol, serif"><i>&beta; </i></font>petit signifie une r&eacute;partition plus large.</p> <p align="justify" class="western">Il est souvent consid&eacute;r&eacute; comme une constante. Nous ne rencontrons pas en sciences humaines et sociales des constantes universelles qui sont par essence des caract&eacute;ristiques d&rsquo;autres sciences comme la physique.</p> <p align="justify" class="western">&nbsp; &nbsp;Les formules propos&eacute;es pour calculer <font face="Symbol, serif"><i>&beta; </i></font>sont d&eacute;montr&eacute;es et concluent en quelque sorte ces mod&egrave;les math&eacute;matiques par 3 formules (voir (5) (8) (12)):</p> <ul> <li> <p class="western">Dans la formule (5) du mod&egrave;le communicationnel <font style="font-size:14pt"><font size="4"><i>H</i></font></font><sub><font style="font-size:14pt"><font size="4"><i>t</i></font></font></sub> est l&#39;entropie, <font style="font-size:14pt"><font size="4"><i>E</i></font></font><sub><font style="font-size:14pt"><font size="4"><i>f</i></font></font></sub> la quantit&eacute; d&#39;effort.&nbsp; <font face="Symbol, serif"><i>&beta;</i></font> est alors per&ccedil;u comme un param&egrave;tre communicationnel quantifiant le co&ucirc;t de production d&#39;un texte.</p> </li> <li> <p class="western">Dans la formule (8) du mod&egrave;le stochastique <font style="font-size:14pt"><font size="4"><i>V</i></font></font> est la taille du lexique, <font style="font-size:14pt"><font size="4"><i>T </i></font></font>le nombre total de mots. <font face="Symbol, serif"><i>&beta;</i></font> est alors per&ccedil;u comme un param&egrave;tre lexicom&eacute;trique caract&eacute;risant un texte.&nbsp; Il est n&eacute;cessairement inf&eacute;rieur &agrave; 1.</p> </li> <li> <p align="justify" class="western">Dans la formule (12) du mod&egrave;le graphom&eacute;trique &nbsp; <font style="font-size:14pt"><font size="4"><i>M</i></font></font> est le nombre de lettres, <font face="Symbol, serif"><i>&nu;</i></font> la probabilit&eacute; d&#39;occurrence d&#39;une lettre.&nbsp; <font face="Symbol, serif"><i>&beta;</i></font> est alors per&ccedil;u comme un param&egrave;tre graphom&eacute;trique de l&#39;&eacute;criture d&#39;un texte. Il est n&eacute;cessairement sup&eacute;rieur &agrave;1.</p> </li> </ul> <p align="justify" class="western">Les modes de calcul sont &eacute;trangers l&#39;un &agrave; l&#39;autre et sont totalement ind&eacute;pendants de l&#39;exp&eacute;rimentation. Il est tentant de dire que les variations de <font face="Symbol, serif"><i>&beta;</i></font>autour de 1 sont des ph&eacute;nom&egrave;nes qui ne rel&egrave;vent pas de la loi mais des conditions de l&#39;exp&eacute;rimentation. Ce param&egrave;tre va induire chez les chercheurs diff&eacute;rentes questions. Peut-on caract&eacute;riser le genre d&#39;un texte par ce param&egrave;tre ? La valeur de <font face="Symbol, serif"><i>&beta;</i></font> est-elle une caract&eacute;ristique de la langue, du style du texte ?&nbsp; Toutes ces questions vont susciter de nombreuses &eacute;tudes et pol&eacute;miques. En effet dans le cas du mod&egrave;le stochastique (ou du moins dans sa forme originelle) <font face="Symbol, serif"><i>&beta;</i></font> est n&eacute;cessairement inf&eacute;rieur &agrave; 1, ce qui n&#39;est pas le cas du mod&egrave;le communicationnel. Cela va &ecirc;tre le d&eacute;clencheur comme on va le voir d&#39;une controverse passionn&eacute;e.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</p> <h4 class="western"><span style="line-height:100%"><font style="font-size:12pt"><font size="3">Entre objet math&eacute;matique et construction sociale</font></font></span></h4> <p align="justify" class="western">Nous rapportons la c&eacute;l&egrave;bre controverse entre Mandelbrot et Simon. Ce d&eacute;bat se d&eacute;roule entre 1959 et 1961. Il a pour point de d&eacute;part une critique de Herbert A. Simon, fondateur du mod&egrave;le stochastique, dans son article publi&eacute; en 1955. Il critique entre autres l&rsquo;utilisation de la th&eacute;orie de l&rsquo;information de Shannon par Mandelbrot. Il juge le mod&egrave;le de Mandelbrot inappropri&eacute;. Puis les deux chercheurs publient 6 articles dans la revue Information and Control dans lesquels ils justifient la pertinence de leur mod&egrave;le et critiquent les faiblesses de l&rsquo;autre. Cette controverse repose avant tout sur un dialogue avec des hypoth&egrave;ses et des repr&eacute;sentations diff&eacute;rentes d&rsquo;un m&ecirc;me objet math&eacute;matique, mais qui repose sur des motivations, des hypoth&egrave;ses et des approximations diff&eacute;rentes. &Agrave; la rigueur math&eacute;matique dont font preuve les protagonistes dans leurs argumentations, s&rsquo;oppose une incompr&eacute;hension croissante au cours de leurs &eacute;changes respectifs. Cette controverse permet de mieux comprendre pourquoi cette loi va susciter de nombreux d&eacute;bats et &ecirc;tre &agrave; l&#39;origine de recherches singuli&egrave;res dans des domaines inattendus.</p> <p class="western">Dans sa premi&egrave;re note critique, publi&eacute;e en 1959, Mandelbrot soul&egrave;ve deux points :</p> <ul> <li> <p class="western">Tout d&rsquo;abord, il r&eacute;fute les arguments de Simon qui lui reproche d&rsquo;utiliser la th&eacute;orie de l&rsquo;information dans un sens d&eacute;voy&eacute; : selon lui, il distingue clairement entropie et information s&eacute;mantique.</p> </li> <li> <p class="western">Puis il critique la d&eacute;marche de Simon, qui pense obtenir &agrave; l&rsquo;aide d&rsquo;une simple variante de la th&eacute;orie de l&rsquo;&eacute;volution de Yule&nbsp; &laquo; so called birth or birth and death &raquo; un mod&egrave;le g&eacute;n&eacute;rique des distributions de type Zipfienne (d&eacute;nomm&eacute;es aussi Z). Il pr&eacute;cise que cette recherche est un d&eacute;fi important. N&eacute;anmoins, si un tel mod&egrave;le existe, il devrait s&rsquo;appuyer sur une hypoth&egrave;se faible mais aussi g&eacute;n&eacute;rale que celle qui explique le r&ocirc;le des distributions gaussiennes. Or les lois de type Z s&rsquo;av&egrave;rent r&eacute;sistantes &agrave; une telle analyse.</p> </li> </ul> <p align="justify" class="western">Simon r&eacute;pond en pr&eacute;cisant son positionnement &eacute;pist&eacute;mologique. Il lui semble plus cr&eacute;dible d&rsquo;expliquer les r&eacute;gularit&eacute;s empiriques de la langue comme le r&eacute;sultat d&rsquo;un processus stochastique, r&eacute;sultant d&rsquo;association et d&rsquo;imitation, mis en &oelig;uvre dans le mod&egrave;le de Yule, plut&ocirc;t que de proposer un m&eacute;canisme maximisant la quantit&eacute; d&rsquo;information transmis par symbole. Cela lui para&icirc;t plus juste qu&rsquo;une explication bas&eacute;e sur les propri&eacute;t&eacute;s statistiques du codage. Il critique l&rsquo;argument de Mandelbrot liant la longueur des mots et leur fr&eacute;quence. Il rappelle que les distributions (fr&eacute;quence, longueur des mots) sont tr&egrave;s irr&eacute;guli&egrave;res. Pour Simon, s&rsquo;il existe une liaison, ce n&rsquo;est pas dans le sens que propose Mandelbrot. C&rsquo;est l&rsquo;usage intensif des mots qui fait que ceux-ci deviennent abr&eacute;g&eacute;s et non l&rsquo;inverse. Cela va selon lui &agrave; l&rsquo;encontre de la minimisation des co&ucirc;ts pour expliquer la loi. Enfin il justifie l&rsquo;utilisation de son mod&egrave;le car les ph&eacute;nom&egrave;nes d&rsquo;association et d&rsquo;imitation sont coh&eacute;rents avec ce que nous savons sur les processus sociaux et psychologiques.</p> <p align="justify" class="western">&Agrave; partir du quatri&egrave;me article, la discussion porte essentiellement sur les aspects math&eacute;matiques du mod&egrave;le et les &eacute;changes entre les deux chercheurs vont &ecirc;tre vifs. N&eacute;anmoins, il faut savoir que lorsque l&rsquo;on mod&eacute;lise &agrave; l&rsquo;aide des math&eacute;matiques, une d&eacute;monstration peut s&rsquo;exprimer de plusieurs fa&ccedil;ons, math&eacute;matiquement juste, faisant appel &agrave; des intuitions et approximations diff&eacute;rentes. Il est m&ecirc;me possible de retrouver un r&eacute;sultat en critiquant la m&eacute;thode qui l&rsquo;a produit. Cette querelle, &agrave; la lecture des textes, est souvent une cons&eacute;quence d&rsquo;une approximation, d&rsquo;une hypoth&egrave;se math&eacute;matique forte, contest&eacute;e car trop peu r&eacute;aliste. Les positions de Simon et de Mandelbrot sont oppos&eacute;es. Mandelbrot consid&egrave;re la langue comme un objet math&eacute;matique. Un texte est un message compos&eacute; d&rsquo;une suite de caract&egrave;res discrets mod&eacute;lis&eacute;s par la loi de Zipf, qui trouve son explication dans la th&eacute;orie statistique de la communication de l&rsquo;information de Shannon. Simon consid&egrave;re la langue avant tout comme une construction sociale en empruntant &agrave; la biologie le concept d&rsquo;avantage cumulatif des processus de la th&eacute;orie de l&rsquo;&eacute;volution. La loi de Zipf est un cas particulier parmi de nombreux autres processus sociaux et psychosociaux.</p> <p align="justify" class="western">L&#39;objectif premier des mod&egrave;les &eacute;tait d&#39;expliquer le pourquoi de ces r&eacute;gularit&eacute;s dans les textes. Ils sont convoqu&eacute;s dans des probl&eacute;matiques tout autres et feront fonction de dialogue.</p> <p align="justify" class="western">Le premier mod&egrave;le contribue &agrave; poser le probl&egrave;me de l&#39;universalit&eacute; de cette loi. Puisqu&#39;un texte quelconque v&eacute;rifie ces r&eacute;gularit&eacute;s et qu&#39;il n&#39;existe pas de langue qui soit un outil de communication, c&#39;est qu&#39;il existe une raison structurelle sup&eacute;rieure qui explique ce ph&eacute;nom&egrave;ne de r&eacute;gularit&eacute; (Ferrer-i Cancho, R. (2007)).</p> <p align="justify" class="western"><font color="#000000">Le deuxi&egrave;me mod&egrave;le replace la loi de</font><em> </em><font color="#000000">Zipf dans un contexte sociologique bien plus large et va &ecirc;tre &agrave; l&#39;origine d&#39;autres travaux.</font></p> <p align="justify" class="western">Ils vont utiliser le m&ecirc;me principe connu sous le nom d&#39;accumulation ou de r&eacute;utilisation dans des domaines diff&eacute;rents :</p> <ul> <li> <p class="western"><font color="#000000">Le principe des avantages cumulatifs de Solla Price en scientom&eacute;trie (</font><font color="#000000">De Solla Price, 1976)</font><font color="#000000">, s&#39;appuyant sur les travaux du sociologue </font><em><font color="#000000"><span style="font-style:normal">Merton</span></font></em><font color="#000000"><i> (</i></font><font color="#000000">Merton, 1968) sur le concept de &quot;Mathew Effect in Science&quot;.</font></p> </li> <li> <p class="western">L&#39;attachement pr&eacute;f&eacute;rentiel pour expliquer les sp&eacute;cificit&eacute;s du graphe du Web en informatique (voir p 231 (Mitzenmacher, 2012)).</p> </li> <li> <p class="western">Enfin le troisi&egrave;me mod&egrave;le va questionner la notion de texte al&eacute;atoire (Ferrer-i Cancho &amp; Elvev&aring;g, 2010). Cela am&egrave;ne &agrave; reposer la question de l&#39;&eacute;criture comme une technique s&#39;apparentant aux (voir p180-182 Lafouge &amp; Pouchot, 2012)) technologies de l&#39;intellect d&eacute;finies par l&#39;anthropologue Jack Goody<sup>6</sup>.</p> </li> </ul> <p align="justify" class="western">Comme nous venons de le voir, la notion de mod&egrave;le am&egrave;ne &agrave; penser la nature des objets et &agrave; poser la probl&eacute;matique en termes de discipline. Dans (Bertin &amp; Lafouge, 2020) une synth&egrave;se bibliom&eacute;trique produite par l&rsquo;interrogation de la banque de donn&eacute;es<sup>7</sup> internationale Scopus a rapatri&eacute; 350 documents publi&eacute;s dans 159 titres de revue durant la p&eacute;riode 1966-2018. Elle t&eacute;moigne de la vitalit&eacute; de cette loi surprenante qui perdure aujourd&rsquo;hui encore dans de nombreux travaux acad&eacute;miques de diverses disciplines.</p> <p>&nbsp;</p> <h2>3 Entre observation et mod&eacute;lisation&nbsp;: une loi polys&eacute;mique et multidisciplinaire.</h2> <h3>La multidisciplinarit&eacute; de la loi de Zipf&nbsp;: &eacute;tude bibliom&eacute;trique des publications</h3> <p align="justify">Nous pr&eacute;sentons dans la Figure 1 l&rsquo;&eacute;volution dans le temps (1966-2018), d&eacute;coup&eacute;e en 3 plages, du nombre des articles publi&eacute;s dans diff&eacute;rents domaines. Ces derniers sont identifi&eacute;s par le classement des revues de Scopus dans les diff&eacute;rentes disciples.</p> <p style="text-align: center;"><img height="571" src="https://www.numerev.com/img/ck_973_17_image-20220508212401-3.png" width="875" />Figure 2&nbsp;: &Eacute;volution au cours du temps des domaines disciplinaires</p> <p align="center">&nbsp;</p> <p align="justify">Une augmentation &agrave; la m&ecirc;me p&eacute;riode est visible pour toutes les disciplines. Si la loi de Zipf pr&eacute;sente ici une part d&rsquo;&eacute;tudes plus importante dans le domaine des sciences et techniques (Physique, math&eacute;matiques) les sciences sociales<sup>8</sup> (Social Sciences, Arts and humanit&eacute;s) lui portent &eacute;galement un int&eacute;r&ecirc;t avec de nombreuses publications. Cette &eacute;tude permet de conclure que dans le domaine des SHS, ce sont les sciences sociales, &agrave; l&rsquo;image des math&eacute;matiques et la physique qui ont une tradition dans l&rsquo;&eacute;tude de cette loi.</p> <h4>Polys&eacute;mie Zipfienne&nbsp;: &eacute;tude autour de la variation lexicale des titres d&rsquo;articles scientifiques</h4> <p align="justify">La loi de Zipf est une loi pluridisciplinaire qui a su perdurer dans le temps et pr&eacute;sente une forme de r&eacute;silience. Dans de nombreuses disciplines, des comportements Zipfiens interpellent les chercheurs. Ces derni&egrave;res ann&eacute;es, la loi de Zipf pr&eacute;sente des variations dans l&rsquo;expression de ses &eacute;nonc&eacute;s. Une incertitude s&rsquo;exprime &agrave; travers Zipf-like o&ugrave; les exp&eacute;rimentations identifient des ph&eacute;nom&egrave;nes se comportant comme des distributions Zipfiennes. Un autre aspect qui interpelle sont les concepts mobilis&eacute;s. Il peut s&rsquo;agir d&rsquo;entropie, de loi puissance ou d&rsquo;&eacute;chelles scalables. Certains articles cit&eacute;s ont des approches plus larges o&ugrave; strat&eacute;gie et mondialisation sont de mises.</p> <p align="justify">Afin de souligner la r&eacute;silience de la loi de Zipf, nous avons men&eacute; une &eacute;tude autour des contextes Zipfiens &agrave; partir du WoS et de Scopus pour la p&eacute;riode 1970-2020. Cette &eacute;tude souligne la complexit&eacute; de citer la loi de Zipf dans le cadre d&#39;une &eacute;tude bibliom&eacute;trique, puisque de nombreux travaux la comparent &agrave; d&#39;autres lois, telle que celles de Gibrat, Heap, Taylor, Pareto, Boltzmann, Menzerath, Benford, &hellip; Parfois, le terme &quot;law&quot; est remplac&eacute; par d&#39;autres mots tels que &quot;entropy&quot;, &quot;power law&quot;, &quot;rule&quot;, &quot;rank approach&quot;, &quot;distribution, analysis&quot;, &quot;exponent&quot;, &quot;world&quot;, &quot;ensemble&quot;, &quot;strategy&quot;&nbsp;, &quot;scaling behavior, approach&quot;. Nous avons &eacute;galement trouv&eacute; des formes d&#39;analogie, comme dans &ldquo;A Zipf&rsquo;s Curve Approach&rdquo;.</p> <p align="justify">Nous avons &eacute;galement constater l&rsquo;&eacute;mergence de la notion de mod&egrave;le dans les titres, avec une premi&egrave;re occurrence en 1982 et une pr&eacute;sence plus r&eacute;guli&egrave;re dans la litt&eacute;rature &agrave; partir de ce moment-l&agrave;. La carte montre &eacute;galement que la nature m&ecirc;me de la loi est relativis&eacute;e par l&#39;utilisation du suffixe &quot;like&quot;, qui appara&icirc;t &eacute;galement dans les titres.</p> <p align="justify">&nbsp;</p> <p align="center"><img height="1123" src="https://www.numerev.com/img/ck_973_17_image-20220508212506-4.png" width="794" /></p> <p style="text-align: center;">Figure 3&nbsp;: Cartes des variations terminologiques des titres</p> <p>&nbsp;</p> <p class="western">&nbsp;</p> <h2>4 Discussion conclusive</h2> <p align="justify">Nous avons vu que la loi de Zipf a &eacute;t&eacute; produite suite &agrave; des observations dans un contexte technologique. &Agrave; partir de l&rsquo;observable, elle convoque aussi bien les sciences humaines et sociales que les sciences de la nature et s&rsquo;exprime sous forme d&rsquo;exp&eacute;rimentation et de mod&eacute;lisation. Les mod&egrave;les Zipfiens semblent poss&eacute;der cette caract&eacute;ristique de s&rsquo;appliquer en dehors de tout cadre th&eacute;orique. Nous rappelons que la loi de Zipf n&rsquo;est pas issue d&rsquo;un cadre th&eacute;orique &eacute;tabli autour du principe de moindre effort alors que l&rsquo;article est r&eacute;guli&egrave;rement cit&eacute; dans la litt&eacute;rature (Zipf, 1949). Les mod&egrave;les exprim&eacute;s recherchent des r&eacute;gularit&eacute;s &agrave; partir de donn&eacute;es num&eacute;riques, et cela ind&eacute;pendamment du domaine et de l&rsquo;objet d&rsquo;&eacute;tude. &Agrave; l&rsquo;aide de mod&egrave;les, cette loi est le lieu de repr&eacute;sentations locales du r&eacute;el &agrave; partir des r&eacute;gularit&eacute;s capt&eacute;es, invitant &agrave; une forme de r&eacute;flexivit&eacute;.</p> <p align="justify">Contrairement aux sciences de la nature, la notion de loi en sciences humaines et sociales n&#39;est pas triviale et la nature des lois en science humaine et sociale m&eacute;rite discussion. L&#39;existence de lois en sociologie par exemple a &eacute;t&eacute; pos&eacute;e au d&eacute;but des ann&eacute;es 1930 par Maurice Halbwach<sup>9</sup> dans son essai (Maurice, 1934). Pour lui, les relations r&eacute;guli&egrave;rement observ&eacute;es entre les faits sociaux constituent des lois sociales g&eacute;n&eacute;rales et portent sur l&#39;&eacute;volution d&#39;ensembles complexes. Celles-ci fixent des corr&eacute;lations des rapports entre ph&eacute;nom&egrave;nes sociaux. Jean-Claude Passeron a quant &agrave; lui pos&eacute; au d&eacute;but des ann&eacute;es 1990 les limites de la g&eacute;n&eacute;ralisation sociologique dans son ouvrage (Passeron, 1991). Pour l&#39;auteur, il n&#39;est pas envisageable d&#39;assimiler le statut des sciences humaines et sociales &agrave; celui des sciences de la nature. Par la m&ecirc;me, les propositions des SHS s&#39;inscrivent dans un espace diff&eacute;rent, o&ugrave; elles ne peuvent &ecirc;tre universellement et intemporellement exactes. Or, du fait de leur objet m&ecirc;me, &eacute;volutif &agrave; travers les &acirc;ges, et des m&eacute;thodes d&#39;observation, sont exclus les g&eacute;n&eacute;ralisations et l&#39;&eacute;tablissement de lois g&eacute;n&eacute;rales puisque le contexte de chaque objet sociologique varie, notamment dans le temps. De plus, la description du monde vue par la lunette sociologique est faite &agrave; l&#39;aide de mots issus de la langue naturelle alors que l&#39;&eacute;tablissement de lois n&eacute;cessiterait un langage de r&eacute;f&eacute;rence ind&eacute;pendant du contexte.</p> <p align="justify">Afin de mieux appr&eacute;hender la place du travail de Zipf, il est n&eacute;cessaire de consid&eacute;rer la proposition de Kendall<sup>10 </sup>(Kendall,1960) qui red&eacute;finit cette notion dans son contexte des humanit&eacute;s : &laquo; <i>Par loi, j&rsquo;entends un mod&egrave;le d&rsquo;agr&eacute;gat humain observable, reproductible et, en r&egrave;gle g&eacute;n&eacute;rale, quantifiable ; peut-&ecirc;tre seulement de nature descriptive, peut-&ecirc;tre explicable en termes de mod&egrave;le, mais en tout cas li&eacute; &agrave; l&rsquo;observation</i> &raquo;. La loi de Zipf peut donc &ecirc;tre qualifi&eacute;e de loi en Sciences Humaines et Sociales au sens de Kendall puisqu&rsquo;elle v&eacute;rifie tous les crit&egrave;res requis &eacute;nonc&eacute;s de la d&eacute;finition propos&eacute;e, &agrave; savoir: observable, reproductible, quantifiable.</p> <p>Si les mod&egrave;les Zipfiens corroborent la loi de Zipf, ils ne sont pas des prolongations d&rsquo;un mod&egrave;le th&eacute;orique, mais tendent plut&ocirc;t vers une caract&eacute;ristique commune d&rsquo;un ph&eacute;nom&egrave;ne de r&eacute;gularit&eacute; qui s&rsquo;exprime aussi bien &agrave; travers les sciences humaines et sociales que dans les sciences de la nature &agrave; partir du moment que l&rsquo;on cherche &agrave; exprimer sous forme quantifiable le r&eacute;el.</p> <h2>Bibliographie</h2> <p class="western">Auerbach, F. (1913). &laquo;Das Gesetz der Bev&ouml;lkerungskonzentration. Petermanns Mitteilungen&raquo; 59 (1), 74&ndash;76.</p> <p class="western">Bertin, M., &amp; Lafouge, T.&nbsp; (2020).&nbsp; &laquo;&nbsp;La loi de Zipf 70 apr&egrave;s : pluridisciplinarit&eacute;, mod&egrave;les et controverses&nbsp;&raquo;,<i> Communication et Langages,</i> (206), 111-134.</p> <p class="western">Bressoux, P.&nbsp; (2010). &laquo; Mod&eacute;lisation Statistique Appliqu&eacute;e aux Sciences Sociales &raquo;,&nbsp; <i>De Boec</i>k. Doi&nbsp;:&nbsp; 10.3917/dbu.bress.2010.01</p> <p class="western">Chang, Y.-W.&nbsp; (2016).&nbsp;&laquo; Influence of the Principle of Least Effort across Disciplines<i>&raquo;, Scientometrics</i> (106), 1117&ndash;1133. doi:&nbsp; 10.1007/s11192-016-1838-0</p> <p class="western">Condon, E. U.&nbsp;&nbsp; (1928).&nbsp;&nbsp;&laquo; Statistics of Vocabulary <i>&raquo;</i>, <i>Science</i> (67), 300.&nbsp;&nbsp; doi:&nbsp; 10.1007/978-1- 4612-3066-3₉</p> <p class="western"><font color="#000000">De Pareto, V.&nbsp;&nbsp; (1895).&nbsp;&nbsp; &laquo;La leggae della demanda. Giornale degli Economisti </font><font color="#000000"><i>&raquo;</i></font><font color="#000000"> , 12 , 59&ndash;68. </font><font color="#0563c1"><u><a href="https://www.jstor.org/stable/23219874"><font color="#000000">https://www.jstor.org/stable/23219874</font></a></u></font></p> <p class="western">De Solla Price, D. J.&nbsp;&nbsp; (1976).&nbsp;&nbsp;&laquo; A general theory of bibliometric and other cumulative and other advantage processes <i>&raquo;</i>, <i>Journal of the American Society for Information Science</i> , 27 (5-6), 292&ndash;306. doi:&nbsp; 10.1002/asi.4630270505</p> <p style="margin-bottom:13px"><span style="line-height:100%"><font face="Calibri, serif"><font face="Liberation Serif, serif">Estoup Jean-Baptiste, &laquo;&nbsp;Gammes st&eacute;nographiques&nbsp;&raquo;, 4</font><sup><font face="Liberation Serif, serif">e </font></sup><font face="Liberation Serif, serif">&eacute;dition, </font><font face="Liberation Serif, serif"><i>Institut St&eacute;nographique de France</i></font><font face="Liberation Serif, serif">, Paris, 1916.</font></font></span></p> <p class="western">Ferrer-I Cancho, R. (2007). &laquo;On the universality of zipf&rsquo;s law for word frequencies <i>&raquo;, </i> <i>In W. de Gruyter (Ed.), Exact methods in the study of language and text</i> (p. 131-140).&nbsp;&nbsp; doi: 10.1515/9783110894219.131</p> <p class="western">Ferrer-I Cancho, R., &amp; Elvev&aring;g, B.&nbsp; (2010).&nbsp; &laquo;Random texts do not exhibit the real zipf&rsquo;s law-like rank distribution<i>&raquo;</i> PLOS ONE, 5 .</p> <p class="western">Good, I. J.&nbsp; (1953).&nbsp;&laquo; The population frequencies of species growing according to simple birth and death process <i>&raquo;, </i><i>Biometrika</i>, Vol. 40, No. &frac34;. (Dec., 1953), pp. 237-264.</p> <p class="western">Kendall M. G. (1960). &laquo; Natural law in the social sciences: Presidential address, delivered to the royal statistical society on wednesday, november 16<sup>th</sup>, 1960 &raquo;, <i>Journal of the Royal Statistical Society</i>, A 124(1), 1961, p. 16&ndash;19.</p> <p class="western">Lafouge T. &amp; Pouchot S. (2012). &laquo;&nbsp;Statistiques de l&rsquo;intellect : Lois puissances inverses en sciences humaines et sociales&nbsp;&raquo;, <i>Publibook</i>, 2012.</p> <p class="western">Lotka, A. J. (1926). &laquo;&nbsp;The frequency distribution of scientific productivity&nbsp;&raquo;,<i> Washington</i><i> Academy of Scienc</i>e, 16, 1926, p. 317&ndash;323.</p> <p class="western">Mandelbrot, B. (1952). &laquo;&nbsp;Contribution &agrave; la th&eacute;orie math&eacute;matique des jeux de communication&nbsp;&raquo;, <i>Institut de statistique de l&rsquo;universit&eacute; de Paris</i>, PhD th&egrave;se, 1952.</p> <p class="western">Mandelbrot, B. (1953). &laquo;&nbsp;An informational theory of the statistical structure of languages<i>&nbsp;&raquo;, </i><i>W. Jackson Butterworth</i>, 1953, p. 486&ndash;502.</p> <p style="margin-bottom:13px"><span style="line-height:100%"><font face="Calibri, serif"><font face="Liberation Serif, serif">Mandelbrot B. (1968). Encyclop&eacute;die de la pl&eacute;iade: Linguistique, In, Ed. Andr&eacute; Martinet, Paris: </font><font face="Liberation Serif, serif"><i>Gallimard</i></font><font face="Liberation Serif, serif">. 1968, p. 46&ndash;56.</font></font></span></p> <p class="western">Maurice, H. (1934). La loi en sociologie.</p> <p class="western"><font color="#000000">Merton R.K. (1968). &laquo;&nbsp;The Matthew effect in science&nbsp;&raquo;. </font><font color="#000000">In </font><font color="#000000"><i>Science</i></font><font color="#000000">, 159 (3810), p. 56-63. Disponible sur&nbsp;: </font><font color="#0563c1"><u><font color="#000000"><a href="http://www.garfield.library.upenn.edu/merton/matthew1.pdf">http://www.garfield.library.upenn.edu/merton/matthew1.pdf</a> </font></u><font color="#000000">(</font></font><font color="#0563c1"><font color="#000000"><i>page consult&eacute;e le 8 mai 2022</i></font></font><font color="#0563c1"><font color="#000000">)</font></font></p> <p class="western">Miller, G. A. (1957). &laquo;&nbsp;Some effects of intermittent silence&nbsp;&raquo;, <i>The</i><i> American Journal of Psychology</i>, 70(2), 1957, p. 311&ndash;314.</p> <p class="western">Mitzenmacher, M. D. (2012). &laquo;&nbsp;A brief history of generative models for power law and lognormal distributions&nbsp;&raquo;, <i>Internet</i><i> Mathematics</i>, 1(2), 2012, p. 226&ndash;251.</p> <p class="western">Newman, M. E. J. (2005). &laquo;&nbsp;Power laws, pareto distributions and zipf&rsquo;s law&nbsp;&raquo;, <i>Contemporary physics</i>, 46(5), 2005, p. 323&ndash;351. doi:&nbsp; 10.1080/00107510500052444</p> <p class="western">Passeron, J.C. (1991). &laquo;&nbsp;Le raisonnement sociologique&nbsp;: L&rsquo;espace non-popp&eacute;rien du raisonnement naturel&nbsp;&raquo;, Paris&nbsp;: Nathan.</p> <p class="western">Reginald, S., &amp; Bouchet, F.&nbsp; (2007).&nbsp; &laquo;Investigation of the zipf-plot of the extinct meriotic language&raquo; , <i>Glottometrics</i> , 15 , 53-61.</p> <p class="western">Simon, H. A. (1955). &laquo;&nbsp;On a class of skew distribution functions&nbsp;&raquo;, <i>Biometrika</i> 42(&frac34;), 1955, p. 425&ndash;440.</p> <p class="western">Simon, H. A. (1960). &laquo;&nbsp;Some further notes on a class of skew distribution functions&nbsp;&raquo;, <i>Information and control</i> 3, 1960, p. 80&ndash;88. doi:&nbsp;10.1016/s0019-9958(60)90302-8</p> <p class="western">Yule, G. U. (1925). &laquo;&nbsp;A Mathematical Theory of Evolution, Based on the Conclusions of Dr. J. C. Willis&nbsp;&raquo;, F.R.S. In : <i>Philosophical Transactions of the Royal Society of London</i>, Series B, Containing Papers of a Biological Character 213, 1925, p. 21&ndash;87.</p> <p class="western">Zipf, G. K. (1949). &laquo;&nbsp;Human behavior and the principle of least effort&nbsp;&raquo;, <i>Cambridge, MA, USA Addison-Wesley</i>, 1949, Reprinted: Hafner, New York, USA, 1965.</p> <h2 class="western">Notes</h2> <p align="justify" class="sdfootnote-western"><small>1 Beno&icirc;t Mandelbrot(1924-2010) est un math&eacute;maticien connu pour avoir d&eacute;fini une nouvelle classe d&#39;objets que sont les fractales. </small></p> <p align="justify" class="sdfootnote-western" style="text-indent:0cm"><small><font color="#000000">2 Le m&eacute;ro&iuml;tique est un langage &eacute;crit d&rsquo;une ancienne civilisation localis&eacute;e dans ce qu&rsquo;on appelle maintenant le nord Soudandont l</font><font color="#000000">es caract&egrave;res s&rsquo;apparentent aux hi&eacute;roglyphes &eacute;gyptiens. </font><a href="https://fr.wikipedia.org/wiki/M%C3%A9ro%C3%AFtique">M&eacute;ro&iuml;tique sur Wikip&eacute;dia</a> (page consult&eacute;e le 8 mai 2022)</small><br /> <small><font color="#000000">3</font> <font color="#0563c1"><u><a href="https://www.egypt.edu/etaussi/informatique/meroitique/meroitique01.htm"><font color="#000000">https://www.egypt.edu/etaussi/informatique/meroitique/meroitique01.htm</font></a><font color="#000000"> </font></u></font>(page consult&eacute;e le 8 mai 2022)</small><br /> <small><font color="#000000">4</font><font color="#000000"> La longueur du texte est un &eacute;l&eacute;ment cl&eacute; pour v&eacute;rifier la loi.</font></small></p> <p align="justify" class="sdfootnote-western" style="text-indent:0cm; margin-bottom:13px"><small><font color="#000000">5</font><font color="#000000"> L&rsquo;interrogation est faite le 29 mars 2019 en cherchant tous les documents publi&eacute;s avec &laquo;&nbsp;Zipf&nbsp;&raquo; and &laquo;&nbsp;Law&nbsp;&raquo; dans le libell&eacute; du titre. </font></small></p> <p align="justify" class="sdfootnote-western" style="text-indent:0cm"><small><font color="#000000">6</font><font color="#000000"> Nous nous r&eacute;f&eacute;rons au classement dans le monde anglo-saxon des sciences humaines et sociales</font></small></p> <p align="justify" class="sdfootnote-western"><small>7 Herbert Alexander Simon (1916-2001) est &eacute;conomiste et a re&ccedil;u le prix Nobel d&#39;&eacute;conomie en 1978.</small></p> <p align="justify" class="sdfootnote-western"><small>8 Jack Goody (1919-2015) est un anthropologue britannique qui s&rsquo;est int&eacute;ress&eacute; aux technologies de l&rsquo;intellect &laquo;&nbsp;r&eacute;flexives&nbsp;&raquo; et a constat&eacute; qu&rsquo;il y en a que deux&nbsp;: le langage et l&rsquo;&eacute;criture</small></p> <p align="justify" class="sdfootnote-western"><small>9 Sociologue fran&ccedil;ais de l&#39;&eacute;cole durkheimienne (1867-1945).</small></p> <p align="justify" class="sdfootnote-western"><small>10 Maurice George Kendall (1907-1983) est un statisticien britannique.</small></p> <p>&nbsp;</p> <p>&nbsp;</p>