<h2>Introduction</h2> <p align="justify" class="western">Le terme mod&egrave;le est polys&eacute;mique. La litt&eacute;rature scientifique et les d&eacute;bats &eacute;pist&eacute;mologiques pr&eacute;sentent une multiplicit&eacute; de concepts et d&#39;emploi en fonction de l&#39;&eacute;poque et du contexte disciplinaire. Mais une loi interroge avec singularit&eacute; la notion de mod&egrave;le: la loi de Zipf. Elle est pr&eacute;sente dans de nombreuses disciplines sans forc&eacute;ment avoir de lien avec les objets d&#39;&eacute;tude historique qui sont le texte contenu dans un document ou l&#39;observation d&eacute;mographique. Elle couvre de nombreux domaines et invite &agrave; s&#39;interroger sur sa gen&egrave;se et sa persistance.&nbsp; D&#39;un point de vue historique, l&#39;oeuvre de Zipf est avant tout une qu&ecirc;te d&#39;universalit&eacute; dans une tentative de d&eacute;finir un cadre th&eacute;orique autour du principe du moindre effort. Si ce dernier ne propose aucune formalisation &agrave; travers une math&eacute;matisation, la loi de Zipf n&#39;entre pas explicitement dans ce cadre th&eacute;orique. Elle repose avant tout sur l&#39;exp&eacute;rimentation qui conduit &agrave; un triptyque autour de la mod&eacute;lisation: l&#39;exp&eacute;rimentation, la prise en compte du contexte et la formalisation, c&#39;est-&agrave;-dire sa math&eacute;matisation. Sur ce dernier point, nous verrons que la discussion autour des param&egrave;tres est une caract&eacute;ristique invitant aux d&eacute;bats autour des mod&egrave;les Zipfiens.</p> <p align="justify" class="western">S&#39;il est commun de d&eacute;finir le mod&egrave;le comme une repr&eacute;sentation partielle du monde, nous avons choisi une approche plus r&eacute;flexive en pr&ocirc;nant le mod&egrave;le comme une repr&eacute;sentation cognitive de ce monde. Le mod&egrave;le serait alors une invitation au dialogue pour mieux les comprendre &agrave; travers le langage commun des math&eacute;matiques. Pour cela, nous proposons une repr&eacute;sentation des mod&egrave;les Zipfiens &agrave; travers une formalisation math&eacute;matique commune afin de mieux appr&eacute;hender l&#39;intelligibilit&eacute; des mod&egrave;les. Rendre ces mod&egrave;les intelligibles permet de mieux en saisir les notions et les concepts sous-jacents et de produire des repr&eacute;sentations partag&eacute;es des mod&egrave;les Zipfiens. D&#39;un point de vue &eacute;pist&eacute;mologique, si la fonction d&#39;intelligibilit&eacute; des mod&egrave;les ne pose pas ici d&eacute;bat, le principe de rationalit&eacute; m&eacute;rite une plus grande attention. En effet, ce principe suppose une formalisation de l&#39;observable. Pourtant &agrave; un m&ecirc;me ph&eacute;nom&egrave;ne Zipfien, plusieurs mod&egrave;les se sont construits, co-construit voir confront&eacute;s. La controverse entre Mandelbrot et Simon &agrave; travers une s&eacute;rie d&#39;articles a produit une discussion argument&eacute;e avec des &eacute;l&eacute;ments divergents montrant l&#39;importance du contexte.</p> <p align="justify" class="western"><font style="font-size:12pt"><font size="3">Les premiers travaux historiques sont une approche num&eacute;rique reposant sur une analyse quantitative de la textualit&eacute;. L&rsquo;&eacute;tude num&eacute;rique des donn&eacute;es produites conduit &agrave; s&rsquo;int&eacute;resser aux ph&eacute;nom&egrave;nes de r&eacute;gularit&eacute;, non seulement &agrave; travers les textes, mais dans les diff&eacute;rents domaines de la connaissance. La premi&egrave;re partie de cet article portera d&rsquo;une part sur la multidisciplinarit&eacute; de cette loi &agrave; travers une &eacute;tude bibliom&eacute;trique, et d&rsquo;autre part, sur l&rsquo;&eacute;tude des variations lexicales des &eacute;nonc&eacute;s de la loi de Zipf &agrave; travers les titres des articles scientifiques provenant des m&eacute;tadonn&eacute;es du WoS et de Scopus. Une deuxi&egrave;me partie permet de mieux cerner la fronti&egrave;re entre loi et mod&egrave;les. La loi de Zipf et les trois mod&egrave;les historiques explicatifs Zipfiens sont pr&eacute;sent&eacute;s avec un formalisme math&eacute;matique commun. Cela am&egrave;ne une discussion autour du coefficient &laquo;&nbsp;beta&nbsp;&raquo; de la loi qui s&rsquo;apparente &agrave; une constante (voisine de 1) lors des exp&eacute;rimentations. Cette constante se calcule diff&eacute;remment suivant les mod&egrave;les. Cette diversit&eacute; d&rsquo;approches am&egrave;ne une troisi&egrave;me partie &agrave; faire dialoguer les mod&egrave;les. Tout d&rsquo;abord, la pr&eacute;sentation d&rsquo;une pol&eacute;mique entre Simon et Mandelbrot permet de mieux comprendre par la suite les d&eacute;bats toujours actuels autour de la loi. En effet tr&egrave;s souvent, du fait de la multidisciplinarit&eacute;, la nature de l&rsquo;objet &eacute;tudi&eacute; est impr&eacute;cise. Enfin les nouvelles perspectives induites par cette loi sont ensuite pr&eacute;sent&eacute;es. </font></font>La loi de Zipf interpelle aussi bien dans le domaine des lois de la nature que dans les sciences humaines et sociales. Aussi nous conclurons sur une r&eacute;flexion autour des notions de loi et de mod&egrave;les en science humaine et sociale.</p> <h2 class="western"><span style="line-height:100%"><font style="font-size:18pt"><font size="5"><b>Etudes autour de la loi de Zipf&nbsp;: une loi multidisciplinaire et polys&eacute;mique</b></font></font></span></h2> <h3 class="western"><font style="font-size:14pt"><font size="4">La multidisciplinarit&eacute; de la</font></font> loi de Zipf&nbsp;: &eacute;tude bibliom&eacute;trique des publications</h3> <p align="justify" class="western">Bertin, M., &amp; Lafouge, T.&nbsp; (2020) montrent dans le tableau 1, un taux de production croissant dans les diff&eacute;rents domaines scientifiques. Cela est d&ucirc; principalement au d&eacute;veloppement technologique qu&#39;est l&#39;informatique et qui facilite les exp&eacute;rimentations.</p> <p align="justify" class="western">&nbsp;</p> <p align="justify" class="western"><img src="https://www.numerev.com/img/ck_973_17_image-20220116183338-1.png" style="width: 900px; height: 436px;" /></p> <p style="text-align: center;">Tableau 1&nbsp;: &Eacute;volution et Pluridisciplinarit&eacute;</p> <p align="justify" class="western">La synth&egrave;se bibliom&eacute;trique produite par l&rsquo;interrogation de la banque de donn&eacute;es internationale Scopus rapatrie 350 documents publi&eacute;s dans 159 titres de revue durant la p&eacute;riode 1968-2018. <font style="font-size:12pt"><font size="3">E</font></font>lle t&eacute;moigne de la vitalit&eacute; de cette loi surprenante qui perdure aujourd&rsquo;hui encore dans de nombreux travaux acad&eacute;miques de diverses disciplines. Elle pr&eacute;sente l&rsquo;&eacute;volution dans le temps, d&eacute;coup&eacute;e en plage de cinq ans, et l&rsquo;int&eacute;r&ecirc;t des diff&eacute;rentes disciplines durant cette p&eacute;riode. Les espaces sombres pr&eacute;sentent un continuum pour une discipline donn&eacute;e. Si la loi de Zipf pr&eacute;sente ici une part d&rsquo;&eacute;tudes plus importante dans le domaine des sciences et techniques, les sciences sociales lui portent &eacute;galement un int&eacute;r&ecirc;t avec de nombreuses publications. Dans le domaine des SHS, ce sont les sciences sociales, &agrave; l&rsquo;image des math&eacute;matiques, qui ont une tradition dans l&rsquo;&eacute;tude de cette loi.</p> <div id="sdfootnote1"> <h3 align="justify" class="sdfootnote-western" style="margin-bottom: 13px;">&nbsp;<font style="font-size:14pt"><font size="4"><b>Polys&eacute;mie Zipfienne&nbsp;: &eacute;tude</b></font></font> autour de la variation lexicale des titres d&rsquo;articles scientifiques</h3> </div> <p align="justify" class="western">Nous pr&eacute;sentons ici le r&eacute;sultat d&#39;une &eacute;tude portant sur les contextes Zipfiens <font face="Liberation Serif, serif"><font style="font-size:12pt"><font size="3">&agrave; partir du </font></font></font>WoS et de Scopus pour la p&eacute;riode 1970-2020.&nbsp; Nous avons vu la notion de mod&egrave;le &eacute;merger dans les titres, avec une premi&egrave;re occurrence en 1982 et une pr&eacute;sence plus r&eacute;guli&egrave;re dans la litt&eacute;rature &agrave; partir de ce moment-l&agrave;, comme le montre le tableau <font style="font-size:12pt"><font size="3">2</font></font>.</p> <p align="justify" class="western"><img src="https://www.numerev.com/img/ck_973_17_image-20220116183548-2.png" style="width: 800px; height: 415px;" /></p> <p style="text-align: center;">Tableau 2&nbsp;: &Eacute;mergence des mod&egrave;les zipfiens dans les titre</p> <p align="justify" class="western">Cette &eacute;tude souligne la complexit&eacute; de citer la loi de Zipf dans le cadre d&#39;une &eacute;tude bibliom&eacute;trique, puisque de nombreux travaux la comparent &agrave; d&#39;autres lois, telle que celles de Gibrat, Heap, Taylor, Pareto, Boltzmann, Menzerath, Benford, &hellip; Ces r&eacute;sultats sont montr&eacute;s dans le tableau <font style="font-size:12pt"><font size="3">3</font></font>. Parfois, le terme &quot;law&quot; est remplac&eacute; par d&#39;autres mots tels que &quot;entropy&quot;, &quot;power law&quot;, &quot;rule&quot;, &quot;rank approach&quot;, &quot;distribution, analysis&quot;, &quot;exponent&quot;, &quot;world&quot;, &quot;ensemble&quot;, &quot;strategy&quot;&nbsp;, &quot;scaling behavior, approach&quot;. Nous avons &eacute;galement trouv&eacute; des formes d&#39;analogie, comme dans &ldquo;A Zipf&rsquo;s Curve Approach&rdquo;.</p> <h2><img src="https://www.numerev.com/img/ck_973_17_image-20220116183627-3.png" style="width: 800px; height: 611px;" /></h2> <p class="western" style="text-align: center;"><font style="font-size:12pt"><font size="3">Tableau 3&nbsp;: </font></font> Concepts zipfiens dans la litt&eacute;rature scientifique bas&eacute;s sur la variation terminologique des titres</p> <p align="justify" class="western">Enfin, le tableau <font style="font-size:12pt"><font size="3">4</font></font> montre que la nature m&ecirc;me de la loi est relativis&eacute;e par l&#39;utilisation du suffixe &quot;like&quot;, qui appara&icirc;t &eacute;galement dans les titres.</p> <h2><img src="https://www.numerev.com/img/ck_973_17_image-20220116183721-4.png" style="width: 800px; height: 270px;" /></h2> <p class="western" style="text-align: center;"><font style="font-size:12pt"><font size="3">Tableau 4&nbsp;:</font></font> <font style="font-size:12pt"><font size="3">Articles</font></font> pr&eacute;sent<font style="font-size:12pt"><font size="3">ant</font></font> &quot;Zipf-like&quot; dans les titres</p> <p align="justify" class="western"><font style="font-size:12pt"><font size="3">La loi de Zipf est une loi pluridisciplinaire qui a su perdurer dans le temps et pr&eacute;sente une forme de r&eacute;silience. Dans de nombreuses disciplines, des comportements Zipfiens interpellent les chercheurs. Ces derni&egrave;res ann&eacute;es, la loi de Zipf pr&eacute;sente des variations dans l&rsquo;expression de ses &eacute;nonc&eacute;s. Une incertitude s&rsquo;exprime &agrave; travers Zipf-like o&ugrave; les exp&eacute;rimentations identifient des ph&eacute;nom&egrave;nes se comportant comme des distributions Zipfiennes. Un autre aspect qui interpelle sont les concepts mobilis&eacute;s. Il peut s&rsquo;agir d&rsquo;entropie, de loi puissance ou d&rsquo;&eacute;chelles scalables. Certains articles cit&eacute;s ont des approches plus larges o&ugrave; strat&eacute;gie et mondialisation sont de mises. </font></font></p> <h2>3 Loi de Zipf et les principaux mod&egrave;les Zipfiens</h2> <h3>L&#39;origine de la loi de Zipf</h3> <p align="justify" class="western">La loi de Zipf &eacute;nonc&eacute;e en 1949 (Zipf, G. K. (1949)) sur les r&eacute;gularit&eacute;s statistiques de la langue, est une loi surprenante &agrave; plus d&rsquo;un titre. Elle v&eacute;hicule de nombreuses origines tout en alimentant plusieurs controverses. R&eacute;siliente dans le temps, elle s&rsquo;applique &agrave; divers champs disciplinaires en pr&eacute;sentant par essence un aspect pluridisciplinaire (Bertin, M. &amp; Lafouge, T.&nbsp; (2020)). Mod&eacute;lisation math&eacute;matique partant d&rsquo;une &eacute;nonciation du principe du moindre effort pour certains, observations d&rsquo;ing&eacute;nieur pour d&rsquo;autres (Condon, E. U.&nbsp;&nbsp; (1928)), elle est interrog&eacute;e sur son sens, sa nature en tant que loi, ainsi que sur la port&eacute;e de son universalit&eacute;.</p> <p>&Agrave; l&#39;origine l&#39;&eacute;nonc&eacute; math&eacute;matique de cette loi met en exergue les r&eacute;gularit&eacute;s statistiques des mots dans un texte. Si les mots du texte sont class&eacute;s par rang (not&eacute; <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />) de fr&eacute;quence d&eacute;croissante, la relation suivante est v&eacute;rifi&eacute;e :</p> <p><img alt="egin{equation} p_{r}= frac {K} {r^{eta}} quad r =1 dots V quad eta &gt; 0 ~~~~~~~~~~~~ (1)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p_%7Br%7D%3D%20%5Cfrac%20%7BK%7D%20%7Br%5E%7B%5Cbeta%7D%7D%20%5Cquad%20r%20%3D1%20%5Cdots%20V%20%5Cquad%20%5Cbeta%20%3E%200%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%281%29%5Cend%7Bequation%7D" /></p> <p><img alt="p_{r}" src="https://latex.codecogs.com/gif.latex?p_%7Br%7D" /> est la probabilit&eacute; d&#39;occurence du mot de rang <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />, l&#39;exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est voisin de 1, <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est &eacute;gal &agrave; la taille du lexique, et <img alt="K" src="https://latex.codecogs.com/gif.latex?K" /> est&nbsp;&nbsp; une constante de normalisation.</p> <p>La validation de la loi s&rsquo;inscrit alors dans une d&eacute;marche classique des statistiques en Sciences Humaines et Sociales (Bressoux, P.&nbsp; (2010)) qui consiste chaque fois que les donn&eacute;es s&rsquo;y pr&ecirc;tent &agrave; construire, puis ajuster une distribution empirique par une distribution th&eacute;orique encore appel&eacute;e loi de probabilit&eacute; qui permet d&rsquo;ajuster un ph&eacute;nom&egrave;ne observable et intemporel. De tr&egrave;s nombreuses exp&eacute;rimentations ont &eacute;t&eacute; men&eacute;es sur des textes de types vari&eacute;s, de diff&eacute;rents genres (roman, essai, th&eacute;&acirc;tre&hellip;) de diff&eacute;rents auteurs (textes &eacute;crits), ou locuteurs (textes &eacute;nonc&eacute;s), dans de nombreuses langues.</p> <h3>Les mod&egrave;les explicatifs historiques</h3> <p>Les trois mod&egrave;les explicatifs historiques de la loi de Zipf sont pr&eacute;sent&eacute;s chronologiquement:</p> <ol> <li> <p>le mod&egrave;le communicationnel (1952);</p> </li> <li> <p>le mod&egrave;le stochastique (1955);</p> </li> <li> <p>le mod&egrave;le graphom&eacute;trique (1957).</p> </li> </ol> <p>Les mod&egrave;les graphom&eacute;triques et communicationnels ont pour seul objectif d&#39;expliquer cette loi. Le mod&egrave;le stochastique est plus g&eacute;n&eacute;ral. Les trois sont des mod&egrave;les math&eacute;matiques. Nous mettons dans ce paragraphe l&#39;accent sur les concepts sous-jacents en formulant &agrave; minima le d&eacute;veloppant math&eacute;matique n&eacute;cessaire pour mieux les appr&eacute;hender.</p> <h4>Mod&egrave;le communicationnel</h4> <p>En 1952 dans sa th&egrave;se de doctorat (Mandelbrot, B. (1952)), Mandelbrot<sup><font style="font-size:9pt"><font size="2">1</font></font></sup> pr&eacute;cise sa position &eacute;pist&eacute;mologique sur la langue en s&rsquo;inscrivant dans la continuit&eacute; des travaux du linguiste suisse Ferdinand De Saussure. Il souhaite alors &eacute;largir sa th&eacute;orie. Il consid&egrave;re la langue comme une s&eacute;quence al&eacute;atoire d&rsquo;entit&eacute;s concr&egrave;tes, et propose une estimation des probabilit&eacute;s de celles-ci.</p> <p>Il pr&eacute;conise une simplification extr&ecirc;me de la langue, n&eacute;cessaire selon lui, pour utiliser en linguistique des notions math&eacute;matiques. Il postule que les nombreuses &eacute;tudes faites par Zipf sur les distributions confirment quantitativement l&rsquo;hypoth&egrave;se de De Saussure sur la langue : elle peut &ecirc;tre per&ccedil;ue comme une construction d&rsquo;une suite de mots. N&eacute;anmoins il pense que De Saussure va trop loin dans sa construction et n&eacute;glige l&rsquo;adaptation du message &agrave; son support lors de sa transmission. Les travaux de Zipf sur l&#39;origine de la loi stipulent qu&rsquo;il existe un compromis entre les efforts du locuteur et celui de l&#39;auditeur lors d&#39;un processus de communication. Cette hypoth&egrave;se est souvent formul&eacute;e avec le principe du moindre effort qui historiquement est li&eacute; &agrave; cette loi (Chang, Y.-W.&nbsp; (2016)). &nbsp;&nbsp;</p> <p>Mandelbrot<em> </em>le premier en 1953 (voir Mandelbrot B. (1953)) traduit math&eacute;matiquement cette hypoth&egrave;se en s&#39;appuyant sur la th&eacute;orie de l&#39;information de Shannon. L&rsquo;id&eacute;e qui pr&eacute;side &agrave; ce mod&egrave;le est que les mots de faible longueur sont plus fr&eacute;quents, id&eacute;e &eacute;mise d&eacute;j&agrave; par Zipf, car ils n&eacute;cessitent moins d&rsquo;effort pour le locuteur. Il traduit cette hypoth&egrave;se en minimisant <img alt="C" src="https://latex.codecogs.com/gif.latex?C" /> le co&ucirc;t moyen, soit la quantit&eacute; moyenne d&#39;effort&nbsp; par unit&eacute; d&rsquo;information :</p> <p><br /> <img alt="egin{equation} C =frac{Ef}{Ht} ~~~~~~~~~~~~ (2)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20C%20%3D%5Cfrac%7BEf%7D%7BHt%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%282%29%5Cend%7Bequation%7D" /></p> <p>o&ugrave; <img alt="Ef" src="https://latex.codecogs.com/gif.latex?Ef" /> est la quantit&eacute; d&rsquo;effort n&eacute;cessaire pour coder/d&eacute;coder, c&rsquo;est &agrave; dire communiquer, et <img alt="Ht" src="https://latex.codecogs.com/gif.latex?Ht" />&nbsp; l&rsquo;entropie de la distribution des fr&eacute;quences des mots du texte c&rsquo;est-&agrave;-dire la quantit&eacute; d&rsquo;information du message. Si <img alt="p_{r}" src="https://latex.codecogs.com/gif.latex?p_%7Br%7D" /> d&eacute;signe la probabilit&eacute; d&rsquo;un mot de rang <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />, il d&eacute;finit ces deux quantit&eacute;s par les &eacute;quations :</p> <p><img alt="egin{equation} Ht= sum _{r=1}^{r=V} p_{r}. log ( p_{r}) ~~~~~~~~~~~~ (3)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20Ht%3D%20%5Csum%20_%7Br%3D1%7D%5E%7Br%3DV%7D%20p_%7Br%7D.%20%5Clog%20%28%20p_%7Br%7D%29%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%283%29%5Cend%7Bequation%7D" /></p> <p><img alt="egin{equation} Ef= sum _{r=1}^{r=V} p_{r}. log_{M} (r) ~~~~~~~~~~ (4)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20Ef%3D%20%5Csum%20_%7Br%3D1%7D%5E%7Br%3DV%7D%20p_%7Br%7D.%20%5Clog_%7BM%7D%20%28r%29%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%284%29%5Cend%7Bequation%7D" /></p> <p>o&ugrave; <img alt="log_{M}" src="https://latex.codecogs.com/gif.latex?%5Clog_%7BM%7D" /> est le logarithme de base <img alt="M" src="https://latex.codecogs.com/gif.latex?M" />. <img alt="M" src="https://latex.codecogs.com/gif.latex?M" /> est le nombre de caract&egrave;res hormis les s&eacute;parateurs. Son hypoth&egrave;se le conduit &agrave; calculer<sup><font style="font-size:9pt"><font size="2">2</font></font></sup> l&#39;exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> de la loi :</p> <p><img alt="egin{equation} eta =frac{Ht} {Ef}~~~~~~~~~~~~ (5)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D%5Cfrac%7BHt%7D%20%7BEf%7D%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%285%29%5Cend%7Bequation%7D" /></p> <p>label{beta}</p> <h4>Mod&egrave;le Stochastique</h4> <p>En 1955 Simon<sup><font style="font-size:9pt"><font size="2">3</font></font></sup><sup> </sup>(Simon, H. A. (1955)) publie un article&nbsp;&nbsp; sur une classe singuli&egrave;re de distributions statistiques dans des domaines vari&eacute;s : linguistique, scientom&eacute;trie, g&eacute;ographie, &eacute;conomie, biologie. Ces distributions ont une forme caract&eacute;ristique de J renvers&eacute; avec une longue tra&icirc;ne. Il cite cinq exemples c&eacute;l&egrave;bres :</p> <ul> <li> <p>distributions des mots dans les textes;</p> </li> <li> <p>distributions des articles des chercheurs, appel&eacute;e loi de Lotka en scientom&eacute;trie (Lotka, A. J. (1926));</p> </li> <li> <p>distributions des habitants dans les villes en g&eacute;ographie, observ&eacute;es par (Auerbach, F. (1913)) d&egrave;s 1913;</p> </li> <li> <p>distributions du montant des salaires en &eacute;conomie, appel&eacute;e loi Pareto en &eacute;conomie (De Pareto, V.&nbsp;&nbsp; (1895));</p> </li> <li> <p>distributions des g&egrave;nes dans les esp&egrave;ces en biologie (Good, I. J. (1953)<sup>4</sup>).</p> </li> </ul> <p><br /> Elles sont dans des domaines diff&eacute;rents, et n&rsquo;ont pas de point commun, hormis leurs caract&eacute;ristiques statistiques. Il fait l&rsquo;hypoth&egrave;se que ces distributions empiriques ont pour densit&eacute; une fonction puissance inverse :<br /> &nbsp;&nbsp; &nbsp;<br /> <img alt="egin{equation} p_{f} = frac{H} {f^{alpha}} quad f=1,2 dots quad alpha &gt;1 ~~~~~~~~~~~~ (6)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p_%7Bf%7D%20%3D%20%5Cfrac%7BH%7D%20%7Bf%5E%7B%5Calpha%7D%7D%20%5Cquad%20f%3D1%2C2%20%5Cdots%20%5Cquad%20%5Calpha%20%3E1%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%286%29%5Cend%7Bequation%7D" /></p> <p>o&ugrave; pour la distribution des mots, <img alt="p_{f}" src="https://latex.codecogs.com/gif.latex?p_%7Bf%7D" /> est la probabilit&eacute; d&#39;occurrence d&#39;un mot de fr&eacute;quence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />.</p> <p>La formule math&eacute;matique de la loi de Zipf inscrit celle-ci dans cette classe de distributions. N&eacute;anmoins si les formules autour de la loi de Zipf et la formulation de Simon sont toutes les deux des puissances inverses leurs &eacute;critures sont diff&eacute;rentes, elles sont &eacute;quivalentes uniquement pour les fr&eacute;quences &eacute;lev&eacute;es. Dans ce cas on a la relation :</p> <p><img alt="egin{equation} eta approx frac{1}{alpha -1} ~~~~~~~~~~~~ (7)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%5Capprox%20%5Cfrac%7B1%7D%7B%5Calpha%20-1%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%287%29%5Cend%7Bequation%7D" /></p> <p>Simon construit un mod&egrave;le g&eacute;n&eacute;rique pour expliquer ce type de distribution : il choisit la distribution des mots, un exemple comme un autre selon lui. La langue n&#39;a pas de caract&egrave;re sp&eacute;cifique. C&#39;est une construction sociale comme une autre. Il s&#39;inspire des travaux du statisticien Yule&nbsp; (Yule , G. U. (1925).) pr&eacute;curseur de la th&eacute;orie des processus stochastiques. Il utilise une variante de la th&eacute;orie de l&#39;&eacute;volution &quot;so called birth or birth and death&quot;. Il consid&egrave;re le texte comme une succession de mots produits au cours du temps, les uns apr&egrave;s les autres. Il fait deux hypoth&egrave;ses :</p> <ul> <li> <p>la premi&egrave;re concerne la r&eacute;utilisation d&rsquo;un mot. Apr&egrave;s avoir produit <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> mots, il suppose que la probabilit&eacute; que le (k+1)<sup>&egrave;me</sup> mot produit ait une fr&eacute;quence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />, soit proportionnelle au nombre total d&rsquo;occurrences des <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> mots pr&eacute;c&eacute;dents de fr&eacute;quence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />. &nbsp;</p> </li> <li> <p>la deuxi&egrave;me hypoth&egrave;se stipule qu&rsquo;il existe une probabilit&eacute; constante que le&nbsp; (k+1)<sup>&egrave;me</sup>&nbsp; mot soit nouveau, c&rsquo;est &agrave; dire non apparu dans les <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> premiers.</p> </li> </ul> <p>Ces deux hypoth&egrave;ses d&eacute;crivent un processus o&ugrave; la probabilit&eacute; qu&rsquo;un mot apparaisse dans le texte d&eacute;pend des mots qui sont ant&eacute;rieurement pr&eacute;sents. Simon va alors calculer<sup><font style="font-size:9pt"><font size="2">5</font></font></sup> le param&egrave;tre <img alt="alpha" src="https://latex.codecogs.com/gif.latex?%5Calpha" /> et donc <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" />:</p> <p><img alt="egin{equation} eta =1-frac{V}{T} ~~~~~~~~~~~~ (8)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D1-%5Cfrac%7BV%7D%7BT%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%288%29%5Cend%7Bequation%7D" /></p> <p>o&ugrave; <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est la taille du lexique et <img alt="T" src="https://latex.codecogs.com/gif.latex?T" /> le nombre total de mots du texte.</p> <h4>Mod&egrave;le graphom&eacute;trique</h4> <p align="justify">L&rsquo;argument d&rsquo;optimisation de Mandelbrot pour expliquer la loi de Zipf a &eacute;t&eacute; tr&egrave;s vite contest&eacute;. Le simple fait de trouver un m&eacute;canisme convaincant pour expliquer une loi ne signifie pas qu&rsquo;il n&rsquo;y ait pas d&rsquo;autres mod&egrave;les explicatifs. En d&rsquo;autres termes s&rsquo;agit-il d&rsquo;une loi statistique tr&egrave;s g&eacute;n&eacute;rale, en rien sp&eacute;cifique au langage naturel ?</p> <p>D&egrave;s 1957 <em>Miller</em> soul&egrave;ve la question. Il imagine (Miller, G. A. (1957)) un singe tapant au hasard sur une machine &agrave; &eacute;crire comportant <img alt="M" src="https://latex.codecogs.com/gif.latex?M" /> touches. Il suppose que toutes les touches du clavier, hormis la touche chariot, ont la m&ecirc;me chance d&rsquo;&ecirc;tre tap&eacute;es au hasard.<br /> Il note <img alt=" u" src="https://latex.codecogs.com/gif.latex?%5Cnu" /> cette probabilit&eacute;&nbsp; on a :</p> <p><img alt=" u &lt; displaystyle frac{1}{M}" src="https://latex.codecogs.com/gif.latex?%5Cnu%20%3C%20%5Cdisplaystyle%20%5Cfrac%7B1%7D%7BM%7D" /></p> <p>La probabilit&eacute; d&rsquo;&eacute;crire un mot de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> est alors une loi g&eacute;om&eacute;trique :</p> <p><img alt="egin{equation} P(L) = (1-M. u) (M. u)^{L} quad L=0,1,2 dots ~~~~~~~~~~~~ (9)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20P%28L%29%20%3D%20%281-M.%5Cnu%29%20%28M.%5Cnu%29%5E%7BL%7D%20%5Cquad%20L%3D0%2C1%2C2%20%5Cdots%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%289%29%5Cend%7Bequation%7D" /></p> <p>Un texte est la juxtaposition de caract&egrave;res occupant chacun le m&ecirc;me espace. C&rsquo;est une suite de mots de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> variable, s&eacute;par&eacute;s par un caract&egrave;re sp&eacute;cifique. Supposons que les mots soient class&eacute;s par rang de fr&eacute;quences d&eacute;croissantes comme le fait Zipf.</p> <p>Si <img alt="L=2" src="https://latex.codecogs.com/gif.latex?L%3D2" /> le rang <img alt="r" src="https://latex.codecogs.com/gif.latex?r" /> d&rsquo;un tel mot v&eacute;rifie alors l&rsquo;in&eacute;galit&eacute;:<br /> <img alt="M&lt;r&lt;M+M^2." src="https://latex.codecogs.com/gif.latex?M%3Cr%3CM+M%5E2." /><br /> Plus g&eacute;n&eacute;ralement si <img alt="r(L)" src="https://latex.codecogs.com/gif.latex?r%28L%29" /> d&eacute;signe le rang d&rsquo;un mot de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> on a l&rsquo;in&eacute;galit&eacute; :</p> <p><img alt="egin{equation} M+M^{2} dots M^{L-1}&lt;r(L)&lt;M+M^2 + dots M{^L} ~~~~~~~~~~~~ (10)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20M+M%5E%7B2%7D%20%5Cdots%20M%5E%7BL-1%7D%3Cr%28L%29%3CM+M%5E2%20+%20%5Cdots%20M%7B%5EL%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%2810%29%5Cend%7Bequation%7D" /></p> <p>Soit un mot quelconque <img alt="w" src="https://latex.codecogs.com/gif.latex?w" /> de rang <img alt="r(w)" src="https://latex.codecogs.com/gif.latex?r%28w%29" />,&nbsp; Miller d&eacute;duit<sup><font style="font-size:9pt"><font size="2">6</font></font></sup> des &eacute;quations <strong><span style="font-weight:normal">(9) et (10)</span></strong> le r&eacute;sultat (voir&nbsp;<font face="Liberation Serif, serif">Miller, G. A. (1957))</font> :</p> <p><img alt="egin{equation} p(w)= frac{k}{(b +r(w))^{eta} } ~~~~~~~~~~~~ (11)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p%28w%29%3D%20%5Cfrac%7Bk%7D%7B%28b%20+r%28w%29%29%5E%7B%5Cbeta%7D%20%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%2811%29%5Cend%7Bequation%7D" /></p> <p>o&ugrave; <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> et <img alt="b" src="https://latex.codecogs.com/gif.latex?b" /> sont des constantes, et l&rsquo;exposant est :</p> <p><img alt="egin{equation} eta =-frac{log( u)}{log(M)} ~~~~~~~~~~~~ (12)end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D-%5Cfrac%7B%5Clog%28%5Cnu%29%7D%7B%5Clog%28M%29%7D%20%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%7E%20%2812%29%5Cend%7Bequation%7D" /></p> <p>On remarquera que l&rsquo;&eacute;quation <strong><span style="font-weight:normal">(11) est diff&eacute;rente de l&#39;&eacute;quation</span></strong><strong> (</strong><strong><span style="font-weight:normal">1)</span></strong><strong> </strong>puisque l&#39;on a fait une translation de <img alt="b" src="https://latex.codecogs.com/gif.latex?b" />&nbsp; sur le rang. En fait la loi de Zipf est &eacute;nonc&eacute;e sous cette forme par Mandelbrot d&egrave;s 1952. On aura compris que dans ce mod&egrave;le c&rsquo;est la combinaison de la graphie qui est en jeu et non directement la langue.</p> <h3>Le param&egrave;tre <strong><img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /></strong></h3> <p>Cette loi singuli&egrave;re est caract&eacute;ris&eacute;e par un seul param&egrave;tre, l&rsquo;exposant&nbsp;<img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> de la distribution (rang fr&eacute;quence). Il a attir&eacute; l&#39;attention des chercheurs. Il ne faut pas oublier que Zipf a propos&eacute; initialement dans son ouvrage la simple&nbsp; relation o&ugrave; <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est absent (c&#39;est-&agrave;-dire &eacute;gal &agrave; un).</p> <p><img alt="r.f = K quad r=1,2 dots quad" src="https://latex.codecogs.com/gif.latex?r.f%20%3D%20K%20%5Cquad%20r%3D1%2C2%20%5Cdots%20%5Cquad" /></p> <p>o&ugrave;&nbsp; <img alt="K" src="https://latex.codecogs.com/gif.latex?K" />&nbsp; est une constante</p> <p><br /> On sait que sa valeur varie peu dans les exp&eacute;rimentations, elle est rarement inf&eacute;rieure &agrave; 0,9 ou sup&eacute;rieure &agrave; 1,3. Statistiquement, elle caract&eacute;rise la vari&eacute;t&eacute; du vocabulaire dans l&rsquo;utilisation des mots. <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> grand signifie une utilisation de mots fortement concentr&eacute;es sur les mots fr&eacute;quents,&nbsp;<img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> petit signifie une r&eacute;partition plus large. Il est souvent consid&eacute;r&eacute; comme une constante. Nous ne rencontrons pas en sciences humaines et sociales des constantes universelles qui sont par essence des caract&eacute;ristiques d&rsquo;autres sciences comme la physique.<br /> &nbsp;<br /> Les formules propos&eacute;es pour calculer <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> sont d&eacute;montr&eacute;es et concluent en quelque-sorte ces mod&egrave;les math&eacute;matiques, rappelons les 3 formules:</p> <ul> <li> <p>mod&egrave;le Communicationnel<br /> <img alt="eta =displaystyle {frac{Ht}{Ef}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D%5Cdisplaystyle%20%7B%5Cfrac%7BHt%7D%7BEf%7D%7D" /><br /> <img alt="Ht" src="https://latex.codecogs.com/gif.latex?Ht" /> est l&#39;entropie, <img alt="Ef" src="https://latex.codecogs.com/gif.latex?Ef" /> la quantit&eacute; d&#39;effort.&nbsp; <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors per&ccedil;u comme un param&egrave;tre communicationnel quantifiant le co&ucirc;t de production d&#39;un texte.</p> </li> <li> <p>mod&egrave;le Stochastique<br /> <img alt="eta =1 -displaystyle {frac{V}{T}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D1%20-%5Cdisplaystyle%20%7B%5Cfrac%7BV%7D%7BT%7D%7D" />&nbsp;&nbsp;<br /> <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est la taille du lexique, <img alt="T" src="https://latex.codecogs.com/gif.latex?T" /> le nombre total de mots. <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors per&ccedil;u comme un nouveau param&egrave;tre lexicom&eacute;trique caract&eacute;risant un texte.&nbsp; Il est n&eacute;cessairement inf&eacute;rieur &agrave; 1 .&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;</p> </li> <li> <p>mod&egrave;le Graphom&eacute;trique<br /> <img alt="eta =- displaystyle{frac{log( u)}{M}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D-%20%5Cdisplaystyle%7B%5Cfrac%7Blog%28%5Cnu%29%7D%7BM%7D%7D" />&nbsp;<br /> <img alt="M" src="https://latex.codecogs.com/gif.latex?M" />est le nombre de lettres, <img alt=" u" src="https://latex.codecogs.com/gif.latex?%5Cnu" /> la probabilit&eacute; d&#39;occurrence d&#39;une lettre.&nbsp;<img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors per&ccedil;u comme un param&egrave;tre graphom&eacute;trique de l&#39;&eacute;criture d&#39;un texte. Il est n&eacute;cessairement sup&eacute;rieur &agrave; 1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;</p> </li> </ul> <p>&nbsp;<br /> Les modes de calcul sont &eacute;trangers l&#39;un &agrave; l&#39;autre et sont totalement ind&eacute;pendants de l&#39;exp&eacute;rimentation. Il est tentant de dire que les variations de <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> autour de 1 sont des ph&eacute;nom&egrave;nes qui ne rel&egrave;vent pas de la loi mais des conditions de l&#39;exp&eacute;rimentation. Ce param&egrave;tre va induire chez les chercheurs diff&eacute;rentes questions. Peut-on caract&eacute;riser le genre d&#39;un texte par ce param&egrave;tre ? La valeur de <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est-elle une caract&eacute;ristique de la langue, du style du texte ?&nbsp; Toutes ces questions vont susciter de nombreuses &eacute;tudes et pol&eacute;miques. En effet dans le cas du mod&egrave;le stochastique (ou du moins dans sa forme originelle) <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est n&eacute;cessairement inf&eacute;rieur &agrave; 1, ce qui n&#39;est pas le cas du mod&egrave;le communicationnel. Cela va &ecirc;tre le d&eacute;clencheur comme on va le voir d&#39;une controverse passionn&eacute;e.</p> <h2>4 Les mod&egrave;les comme fonction de dialogue</h2> <p>Nous commen&ccedil;ons ce paragraphe en rapportant la c&eacute;l&egrave;bre controverse entre Mandelbrot et Simon. Ce d&eacute;bat se d&eacute;roule entre 1959 et 1961. Il a pour point de d&eacute;part une critique de Herbert A. Simon, fondateur du mod&egrave;le stochastique, dans son article publi&eacute; en 1955. Il critique entre autres l&rsquo;utilisation de la th&eacute;orie de l&rsquo;information de Shannon par Mandelbrot. Il juge le mod&egrave;le de Mandelbrot inappropri&eacute;. Puis les deux chercheurs publient 6 articles dans la revue Information and Control dans lesquels ils justifient la pertinence de leur mod&egrave;le et critiquent les faiblesses de l&rsquo;autre. Cette controverse repose avant tout sur un dialogue avec des hypoth&egrave;ses et des repr&eacute;sentations diff&eacute;rentes d&rsquo;un m&ecirc;me objet math&eacute;matique, mais qui repose sur des motivations, des hypoth&egrave;ses et des approximations diff&eacute;rentes. &Agrave; la rigueur math&eacute;matique dont font preuve les protagonistes dans leurs argumentations, s&rsquo;oppose une incompr&eacute;hension croissante au cours de leurs &eacute;changes respectifs. Cette controverse permet de mieux comprendre pourquoi cette loi va susciter de nombreux d&eacute;bats et &ecirc;tre &agrave; l&#39;origine de recherches singuli&egrave;res dans des domaines inattendus.</p> <h3>Entre objet math&eacute;matique et construction sociale</h3> <p>Dans sa premi&egrave;re note critique, publi&eacute;e en 1959, Mandelbrot soul&egrave;ve deux points :</p> <ul> <li> <p>tout d&rsquo;abord, il r&eacute;fute les arguments de Simon qui lui reproche d&rsquo;utiliser la th&eacute;orie de l&rsquo;information dans un sens d&eacute;voy&eacute; : selon lui, il distingue clairement entropie et information s&eacute;mantique.</p> </li> <li> <p>Puis il critique la d&eacute;marche de Simon, qui pense obtenir &agrave; l&rsquo;aide d&rsquo;une simple variante de la th&eacute;orie de l&rsquo;&eacute;volution de Yule&nbsp; &laquo; so called birth or birth and death &raquo; un mod&egrave;le g&eacute;n&eacute;rique des distributions de type Zipfienne ( d&eacute;nom&eacute;es aussi Z). Il pr&eacute;cise que cette recherche est un d&eacute;fi important. N&eacute;anmoins, si un tel mod&egrave;le existe, il devrait s&rsquo;appuyer sur une hypoth&egrave;se faible mais aussi g&eacute;n&eacute;rale que celle qui explique le r&ocirc;le des distributions gaussiennes. Or les lois de type Z s&rsquo;av&egrave;rent r&eacute;sistantes &agrave; une telle analyse.</p> </li> </ul> <p>Simon r&eacute;pond en pr&eacute;cisant son positionnement &eacute;pist&eacute;mologique. Il lui semble plus cr&eacute;dible d&rsquo;expliquer les r&eacute;gularit&eacute;s empiriques de la langue comme le r&eacute;sultat d&rsquo;un processus stochastique, r&eacute;sultant d&rsquo;association et d&rsquo;imitation, mis en &oelig;uvre dans le mod&egrave;le de Yule, plut&ocirc;t que de proposer un m&eacute;canisme maximisant la quantit&eacute; d&rsquo;information transmis par symbole. Cela lui para&icirc;t plus juste qu&rsquo;une explication bas&eacute;e sur les propri&eacute;t&eacute;s statistiques du codage. Il critique l&rsquo;argument de Mandelbrot liant la longueur des mots et leur fr&eacute;quence. Il rappelle que les distributions (fr&eacute;quence, longueur des mots) sont tr&egrave;s irr&eacute;guli&egrave;res. Pour Simon, s&rsquo;il existe une liaison, ce n&rsquo;est pas dans le sens que propose Mandelbrot. C&rsquo;est l&rsquo;usage intensif des mots qui fait que ceux-ci deviennent abr&eacute;g&eacute;s et non l&rsquo;inverse. Cela va selon lui &agrave; l&rsquo;encontre de la minimisation des co&ucirc;ts pour expliquer la loi. Enfin il justifie l&rsquo;utilisation de son mod&egrave;le car les ph&eacute;nom&egrave;nes d&rsquo;association et d&rsquo;imitation sont coh&eacute;rents avec ce que nous savons sur les processus sociaux et psychologiques : &laquo; Cette d&eacute;rivation -il parle de son mod&egrave;le- a l&rsquo;avantage de ne pas supposer d&rsquo;optimisation en termes de co&ucirc;t ; elle part de l&rsquo;hypoth&egrave;se plus acceptable que la source humaine est un processus stochastique&nbsp; &raquo;.</p> <p>&Agrave; partir du quatri&egrave;me article, la discussion porte essentiellement sur les aspects math&eacute;matiques du mod&egrave;le et les &eacute;changes entre les deux chercheurs vont &ecirc;tre vifs. N&eacute;anmoins, il faut savoir que lorsque l&rsquo;on mod&eacute;lise &agrave; l&rsquo;aide des math&eacute;matiques, une d&eacute;monstration peut s&rsquo;exprimer de plusieurs fa&ccedil;ons, math&eacute;matiquement juste, faisant appel &agrave; des intuitions et approximations diff&eacute;rentes. Il est m&ecirc;me possible de retrouver un r&eacute;sultat en critiquant la m&eacute;thode qui l&rsquo;a produit. Cette querelle, &agrave; la lecture des textes, est souvent une cons&eacute;quence d&rsquo;une approximation, d&rsquo;une hypoth&egrave;se math&eacute;matique forte, contest&eacute;e car trop peu r&eacute;aliste. Les positions de Simon et de Mandelbrot sont oppos&eacute;es. Mandelbrot consid&egrave;re la langue comme un objet math&eacute;matique. Un texte est un message compos&eacute; d&rsquo;une suite de caract&egrave;res discrets mod&eacute;lis&eacute;s par la loi de Zipf, qui trouve son explication dans la th&eacute;orie statistique de la communication de l&rsquo;information de Shannon. Simon consid&egrave;re la langue avant tout comme une construction sociale en empruntant &agrave; la biologie le concept d&rsquo;avantage cumulatif des processus de la th&eacute;orie de l&rsquo;&eacute;volution. La loi de Zipf est un cas particulier parmi de nombreux autres processus sociaux et psychosociaux.</p> <h3>Des nouvelles perspectives de&nbsp; recherches</h3> <p align="justify" class="western">L&#39;objectif premier des mod&egrave;les &eacute;tait d&#39;expliquer le pourquoi de ces r&eacute;gularit&eacute;s dans les textes. Ils sont convoqu&eacute;s dans des probl&eacute;matiques tout autres et feront fonction de dialogue.</p> <p align="justify" class="western">Le premier mod&egrave;le contribue &agrave; poser le probl&egrave;me de l&#39;universalit&eacute; de cette loi. Puisqu&#39;un texte quelconque v&eacute;rifie ces r&eacute;gularit&eacute;s et qu&#39;il n&#39;existe pas de langue qui soit un outil de communication, c&#39;est qu&#39;il existe une raison structurelle sup&eacute;rieure qui explique ce ph&eacute;nom&egrave;ne de r&eacute;gularit&eacute; (Ferrer-i Cancho, R. (2007)).</p> <p align="justify" class="western">Le deuxi&egrave;me mod&egrave;le replace la loi de<em> </em>Zipf dans un contexte sociologique bien plus large et va &ecirc;tre &agrave; l&#39;origine d&#39;autres travaux.</p> <p align="justify" class="western">Ils vont utiliser le m&ecirc;me principe connu sous le nom d&#39;accumulation ou de r&eacute;utilisation dans des domaines diff&eacute;rents :</p> <p class="western">Le principe des avantages cumulatifs de Solla Price en scientom&eacute;trie (De Solla Price, D. J.&nbsp;&nbsp; (1976)), s&#39;appuyant sur les travaux du sociologue <em><span style="font-style:normal">Merton</span></em><i> (</i>Merton R.K. (1968)) sur le concept de &quot;Mathew Effect in Science&quot;</p> <p class="western">L&#39;attachement pr&eacute;f&eacute;rentiel pour expliquer les sp&eacute;cificit&eacute;s du graphe du Web en informatique (Voir p 231 (Mitzenmacher, M. D. (2012))).</p> <p class="western">Enfin le troisi&egrave;me mod&egrave;le va questionner la notion de texte al&eacute;atoire (Ferrer-i Cancho, R., &amp; Elvev&aring;g, B.&nbsp; (2010)). Cela am&egrave;ne &agrave; reposer la question de l&#39;&eacute;criture comme une technique s&#39;apparentant aux (Voir p180-182 Lafouge Thierry &amp; Pouchot St&eacute;phanie (2012))) technologies de l&#39;intellect d&eacute;finies par l&#39;anthropologue Jack Goody<sup>7</sup>. L&rsquo;existence de l&#39;&eacute;criture est questionn&eacute;e en arch&eacute;ologie &agrave; l&#39;aide de la loi de Zipf (voir Reginald, S., &amp; Bouchet, F.&nbsp; (2007)).</p> <h2>Discussion conclusive</h2> <p align="justify" class="western">La loi de Zipf est multidisciplinaire et polys&eacute;mique. &Agrave; partir de l&rsquo;observable, <font style="font-size:12pt"><font size="3">elle</font></font> convoque aussi bien les sciences humaines et sociales que les sciences de la nature et s&rsquo;exprime sous forme d&rsquo;exp&eacute;rimentation et de mod&eacute;lisation. <font style="font-size:12pt"><font size="3">Les mod&egrave;les Zipfiens semblent poss&eacute;der cette caract&eacute;ristique de s&rsquo;appliquer en dehors de tout cadre th&eacute;orique. Nous rappelons que la loi de Zipf n&rsquo;est pas issue d&rsquo;un cadre th&eacute;orique &eacute;tabli autour du principe de moindre effort alors que l&rsquo;article est r&eacute;guli&egrave;rement cit&eacute; dans la litt&eacute;rature (cf Zipf, G. K. (1949)). Les mod&egrave;les exprim&eacute;s recherchent des r&eacute;gularit&eacute;s &agrave; partir de donn&eacute;es num&eacute;riques, et cela ind&eacute;pendamment du domaine et de l&rsquo;objet d&rsquo;&eacute;tude. &Agrave; l&rsquo;aide de mod&egrave;les, cette loi est le lieu de repr&eacute;sentations locales du r&eacute;el &agrave; partir des r&eacute;gularit&eacute;s capt&eacute;es, invitant &agrave; une forme de r&eacute;flexivit&eacute;. </font></font></p> <p align="justify" class="western"><font style="font-size:12pt"><font size="3">N&eacute;anmoins, la nature des lois en science humaine et sociale m&eacute;rite discussion. Contrairement aux sciences de la nature, la notion de loi en sciences humaines et sociales n&#39;est pas triviale. L&#39;existence de lois en sociologie par exemple a &eacute;t&eacute; pos&eacute;e au d&eacute;but des ann&eacute;es 1930 par Maurice Halbwach</font></font><sup><font style="font-size:12pt"><font size="3">8</font></font></sup><font style="font-size:12pt"><font size="3"> dans son essai (voir Maurice, H. (1934)). Pour lui, les relations r&eacute;guli&egrave;rement observ&eacute;es entre les faits sociaux constituent des lois sociales g&eacute;n&eacute;rales et portent sur l&#39;&eacute;volution d&#39;ensembles complexes. Celles-ci fixent des corr&eacute;lations des rapports entre ph&eacute;nom&egrave;nes sociaux.</font></font></p> <p align="justify" class="western">Jean-Claude Passeron a quant &agrave; lui pos&eacute; au d&eacute;but des ann&eacute;es 1990 les limites de la g&eacute;n&eacute;ralisation sociologique dans son ouvrage (voir Passeron, J.C. (1991)). Pour l&#39;auteur, il n&#39;est pas envisageable d&#39;assimiler le statut des sciences humaines et sociales &agrave; celui des sciences de la nature. Par la m&ecirc;me, les propositions des SHS s&#39;inscrivent dans un espace diff&eacute;rent, o&ugrave; elles ne peuvent &ecirc;tre universellement et intemporellement exactes. Or, du fait de leur objet m&ecirc;me, &eacute;volutif &agrave; travers les &acirc;ges, et des m&eacute;thodes d&#39;observation, sont exclus les g&eacute;n&eacute;ralisations et l&#39;&eacute;tablissement de lois g&eacute;n&eacute;rales puisque le contexte de chaque objet sociologique varie, notamment dans le temps. De plus, la description du monde vue par la lunette sociologique est faite &agrave; l&#39;aide de mots issus de la langue naturelle alors que l&#39;&eacute;tablissement de lois n&eacute;cessiterait un langage de r&eacute;f&eacute;rence ind&eacute;pendant du contexte.</p> <p align="justify" class="western">Afin de mieux appr&eacute;hender la place du travail de Zipf, il est n&eacute;cessaire de consid&eacute;rer <font style="font-size:12pt"><font size="3">la proposition </font></font>de Kendall<sup><font style="font-size:12pt"><font size="3">9</font></font></sup> (voir Kendall M. G. (1960)) qui red&eacute;finit cette notion dans son contexte des humanit&eacute;s : &laquo; <i>Par loi, j&rsquo;entends un mod&egrave;le d&rsquo;agr&eacute;gat humain observable, reproductible et, en r&egrave;gle g&eacute;n&eacute;rale, quantifiable ; peut-&ecirc;tre seulement de nature descriptive, peut-&ecirc;tre explicable en termes de mod&egrave;le, mais en tout cas li&eacute; &agrave; l&rsquo;observation</i> &raquo;. <font style="font-size:12pt"><font size="3">L</font></font>a loi de Zipf peut donc &ecirc;tre qualifi&eacute;e de loi en Sciences Humaines et Sociales au sens de Kendall puisqu&rsquo;elle v&eacute;rifie tous les crit&egrave;res requis &eacute;nonc&eacute;s de la d&eacute;finition propos&eacute;e, &agrave; savoir: observable, reproductible, quantifiable.</p> <p align="justify" class="western"><font style="font-size:12pt"><font size="3">Si les mod&egrave;les Zipfiens corroborent la loi de Zipf, ils ne sont pas des prolongations d&rsquo;un mod&egrave;le th&eacute;orique, mais tendent plut&ocirc;t vers une caract&eacute;ristique commune d&rsquo;un ph&eacute;nom&egrave;ne de r&eacute;gularit&eacute; qui s&rsquo;exprime aussi bien &agrave; travers les sciences humaines et sociales que dans les sciences de la nature &agrave; partir du moment que l&rsquo;on cherche &agrave; exprimer sous forme quantifiable le r&eacute;el. </font></font></p> <h2>Bibliographie</h2> <p class="western">Auerbach, F. (1913). &laquo;Das Gesetz der Bev&ouml;lkerungskonzentration. Petermanns Mitteilungen&raquo; 59 (1), 74&ndash;76.</p> <p class="western">Bertin, M., &amp; Lafouge, T.&nbsp; (2020).&nbsp; &laquo;&nbsp;La loi de Zipf 70 apr&egrave;s : pluridisciplinarit&eacute;, mod&egrave;les et controverses&nbsp;&raquo;,<i> Communication et Langages,</i> (206), 111-134.</p> <p class="western">Bressoux, P.&nbsp; (2010). &laquo; Mod&eacute;lisation Statistique Appliqu&eacute;e aux Sciences Sociales &raquo;,&nbsp; <i>De Boec</i>k. Doi&nbsp;:&nbsp; 10.3917/dbu.bress.2010.01</p> <p class="western"><font face="Liberation Serif, serif">Chang, Y.-W.&nbsp; (2016).&nbsp;&laquo; Influence of the Principle of Least Effort across Disciplines<i>&raquo;, Scientometrics</i> (106), 1117&ndash;1133. doi:&nbsp; 10.1007/s11192-016-1838-0</font></p> <p class="western">Condon, E. U.&nbsp;&nbsp; (1928).&nbsp;&nbsp;&laquo; Statistics of Vocabulary <i>&raquo;</i>, <i>Science</i> (67), 300.&nbsp;&nbsp; doi:&nbsp; 10.1007/978-1- 4612-3066-3₉</p> <p class="western">De Pareto, V.&nbsp;&nbsp; (1895).&nbsp;&nbsp; &laquo;La leggae della demanda. Giornale degli Economisti <i>&raquo;</i> , 12 , 59&ndash;68. <u><a href="https://www.jstor.org/stable/23219874">https://www.jstor.org/stable/23219874</a></u></p> <p class="western">De Solla Price, D. J.&nbsp;&nbsp; (1976).&nbsp;&nbsp;&laquo; A general theory of bibliometric and other cumulative and other advantage processes <i>&raquo;</i>, <i>Journal of the American Society for Information Science</i> , 27 (5-6), 292&ndash;306. doi:&nbsp; 10.1002/asi.4630270505</p> <p class="western">Ferrer-I Cancho, R. (2007). &laquo;On the universality of zipf&rsquo;s law for word frequencies <i>&raquo;, </i> <i>In W. de Gruyter (Ed.), Exact methods in the study of language and text</i> (p. 131-140).&nbsp;&nbsp; doi: 10.1515/9783110894219.131</p> <p class="western">Ferrer-I Cancho, R., &amp; Elvev&aring;g, B.&nbsp; (2010).&nbsp; &laquo;Random texts do not exhibit the real zipf&rsquo;s law-like rank distribution<i>&raquo;</i> PLOS ONE, 5 .</p> <p class="western">Good, I. J.&nbsp; (1953).&nbsp;&laquo; The population frequencies of species growing according to simple birth and death process <i>&raquo;, Biometrika</i>, Vol. 40, No. &frac34;. (Dec., 1953), pp. 237-264.</p> <p class="western">Kendall M. G. (1960). &laquo; Natural law in the social sciences: Presidential address, delivered to the royal statistical society on wednesday, november 16<sup>th</sup>, 1960 &raquo;, <i>Journal of the Royal Statistical Society</i>, A 124(1), 1961, p. 16&ndash;19.</p> <p class="western"><font face="Liberation Serif, serif">Lafouge T. &amp; Pouchot S. (2012). &laquo;&nbsp;Statistiques de l&rsquo;intellect : Lois puissances inverses en sciences humaines et sociales&nbsp;&raquo;, </font><font face="Liberation Serif, serif"><i>Publibook</i></font><font face="Liberation Serif, serif">, 2012.</font></p> <p class="western"><font face="Liberation Serif, serif">Lotka, A. J. (1926). &laquo;&nbsp;The frequency distribution of scientific productivity&nbsp;&raquo;,</font><font face="Liberation Serif, serif"><i> Washington</i></font><font face="Liberation Serif, serif"><i> Academy of Scienc</i></font><font face="Liberation Serif, serif">e, 16, 1926, p. 317&ndash;323.</font></p> <p class="western"><font face="Liberation Serif, serif">Mandelbrot, B. (1952). &laquo;&nbsp;Contribution &agrave; la th&eacute;orie math&eacute;matique des jeux de communication&nbsp;&raquo;, </font><font face="Liberation Serif, serif"><i>Institut de statistique de l&rsquo;universit&eacute; de Paris</i></font><font face="Liberation Serif, serif">, PhD th&egrave;se, 1952.</font></p> <p class="western"><font face="Liberation Serif, serif">Mandelbrot, B. (1953). &laquo;&nbsp;An informational theory of the statistical structure of languages</font><font face="Liberation Serif, serif"><i>&nbsp;&raquo;, </i></font><font face="Liberation Serif, serif"><i>W. Jackson Butterworth</i></font><font face="Liberation Serif, serif">, 1953, p. 486&ndash;502.</font></p> <p align="justify" class="western" lang="en-US" style="margin-top:8px; margin-bottom:8px">Maurice, H. (1934). La loi en sociologie.</p> <p class="western">Merton R.K. (1968). &laquo;&nbsp;The Matthew effect in science&nbsp;&raquo;. In <i>Science</i>, 159 (3810), p. 56-63. Disponible sur&nbsp;: <u><a href="http://www.garfield.library.upenn.edu/merton/matthew1.pdf">http://www.garfield.library.upenn.edu/merton/matthew1.pdf</a> (<i>page consult&eacute;e le 15 mai 2020</i>)</u></p> <p class="western"><font face="Liberation Serif, serif">Miller, G. A. (1957). &laquo;&nbsp;Some effects of intermittent silence&nbsp;&raquo;, </font><font face="Liberation Serif, serif"><i>The</i></font><font face="Liberation Serif, serif"><i> American Journal of Psychology</i></font><font face="Liberation Serif, serif">, 70(2), 1957, p. 311&ndash;314.</font></p> <p class="western"><font face="Liberation Serif, serif">Mitzenmacher, M. D. (2012). &laquo;&nbsp;A brief history of generative models for power law and lognormal distributions&nbsp;&raquo;, </font><font face="Liberation Serif, serif"><i>Internet</i></font><font face="Liberation Serif, serif"><i> Mathematics</i></font><font face="Liberation Serif, serif">, 1(2), 2012, p. 226&ndash;251.</font></p> <p class="western"><font face="Liberation Serif, serif">Newman, M. E. J. (2005). &laquo;&nbsp;Power laws, pareto distributions and zipf&rsquo;s law&nbsp;&raquo;, </font><font face="Liberation Serif, serif"><i>Contemporary physics</i></font><font face="Liberation Serif, serif">, 46(5), 2005, p. 323&ndash;351. doi:&nbsp; 10.1080/00107510500052444</font></p> <p class="western"><font face="Liberation Serif, serif">Passeron, J.C. (1991). &laquo;&nbsp;Le raisonnement sociologique&nbsp;: L&rsquo;espace non-popp&eacute;rien du raisonnement naturel&nbsp;&raquo;, Paris&nbsp;: Nathan.</font></p> <p class="western"><font face="Liberation Serif, serif">Reginald, S., &amp; Bouchet, F.&nbsp; (2007).&nbsp; &laquo;Investigation of the zipf-plot of the extinct meriotic language&raquo; , <i>Glottometrics</i> , 15 , 53-61.</font></p> <p class="western"><font face="Liberation Serif, serif">Simon, H. A. (1955). &laquo;&nbsp;On a class of skew distribution functions&nbsp;&raquo;, </font><font face="Liberation Serif, serif"><i>Biometrika</i></font><font face="Liberation Serif, serif"> 42(&frac34;), 1955, p. 425&ndash;440.</font></p> <p class="western"><font face="Liberation Serif, serif">Simon, H. A. (1960). &laquo;&nbsp;Some further notes on a class of skew distribution functions&nbsp;&raquo;, </font><font face="Liberation Serif, serif"><i>Information and control</i></font><font face="Liberation Serif, serif"> 3, 1960, p. 80&ndash;88. doi:&nbsp;10.1016/s0019-9958(60)90302-8</font></p> <p class="western"><font face="Liberation Serif, serif">Yule, G. U. (1925). &laquo;&nbsp;A Mathematical Theory of Evolution, Based on the Conclusions of Dr. J. C. Willis&nbsp;&raquo;, F.R.S. In : </font><font face="Liberation Serif, serif"><i>Philosophical Transactions of the Royal Society of London</i></font><font face="Liberation Serif, serif">, Series B, Containing Papers of a Biological Character 213, 1925, p. 21&ndash;87.</font></p> <p class="western"><font face="Liberation Serif, serif">Zipf, G. K. (1949). &laquo;&nbsp;Human behavior and the principle of least effort&nbsp;&raquo;, </font><font face="Liberation Serif, serif"><i>Cambridge, MA, USA Addison-Wesley</i></font><font face="Liberation Serif, serif">, 1949, Reprinted : Hafner, New York, USA, 1965.</font></p> <h2 class="western">Notes</h2> <p align="justify" class="sdfootnote-western"><small><font style="font-size:10pt"><font size="2">1 Beno&icirc;t Mandelbrot(1924-2010) est un math&eacute;maticien connu pour avoir d&eacute;fini une nouvelle classe d&#39;objets que sont les fractales.</font></font></small></p> <p align="justify" class="sdfootnote-western"><small><font style="font-size:10pt"><font size="2">2 On trouvera dans </font></font><font style="font-size:10pt"><font size="2">(Mitzenmacher, M. D. (2012))</font></font> <font style="font-size:10pt"><font size="2"> une d&eacute;monstration math&eacute;matique tr&egrave;s claire de ce r&eacute;sultat.</font></font></small></p> <p align="justify" class="sdfootnote-western"><small><font style="font-size:10pt"><font size="2">3 Herbert Alexander Simon (1916-2001) est &eacute;conomiste et a re&ccedil;u le prix Nobel d&#39;&eacute;conomie en 1978.</font></font></small></p> <p align="justify" class="sdfootnote-western"><small><font style="font-size:10pt"><font size="2">4 Irving John Good statisticien britannique (1916-2009) dans son &eacute;tude sur les g&egrave;nes des esp&egrave;ces (Good, I.J (1953) , cite page 238 un article &nbsp;de &nbsp;Zipf de 1932 sur les r&eacute;gularit&eacute;s statistiques du vocabulaire&nbsp;: Zipf,<b> </b>G. K. (1932). <i>Selected Studie of the Principle of Relative Frequency in Language. </i>Harvard</font></font></small></p> <p align="justify" class="sdfootnote-western"><small><font style="font-size:9pt"><font size="2">5</font></font><font style="font-size:10pt"><font size="2"> Nous avons simplifi&eacute; sa d&eacute;marche et renvoyons le lecteur &agrave; (Simon H. A. (1955)) p 427-431 ou ( Simon H. A. (1960)).</font></font></small></p> <p align="justify" class="sdfootnote-western"><small><font style="font-size:10pt"><font size="2">6 Une d&eacute;monstration&nbsp; du m&ecirc;me r&eacute;sultat, dite des deux exponentielles, est faite en utilisant le mode continu dans (Newman Mark E. J. (2005)), p13.</font></font></small></p> <p align="justify" class="sdfootnote-western"><small><font style="font-size:10pt"><font size="2">7 Jack Goody (1919-2015) est un anthropologue britannique qui s&rsquo;est int&eacute;ress&eacute; aux technologies de l&rsquo;intellect &laquo;&nbsp;r&eacute;flexives&nbsp;&raquo; et a constat&eacute; qu&rsquo;il y en a que deux&nbsp;: le langage et l&rsquo;&eacute;criture</font></font></small></p> <p align="justify" class="sdfootnote-western"><small><font style="font-size:10pt"><font size="2">8 Sociologue fran&ccedil;ais de l&#39;&eacute;cole durkheimienne (1867-1945).</font></font></small></p> <p align="justify" class="sdfootnote-western"><small><font style="font-size:10pt"><font size="2">9 Maurice George Kendall (1907-1983) est un statisticien britanique</font></font></small></p> <p>&nbsp;</p> <p>&nbsp;</p>