<h1>Entre loi et mod&egrave;les : variations autour des concepts Zipfiens</h1> <h2>1 Introduction</h2> <p>Le terme mod&egrave;le est polys&eacute;mique. La litt&eacute;rature scientifique et les d&eacute;bats &eacute;pist&eacute;mologiques pr&eacute;sentent une multiplicit&eacute; de concepts et d&#39;emploi en fonction de l&#39;&eacute;poque et du contexte disciplinaire. Mais une loi interroge avec singularit&eacute; la notion de mod&egrave;le: la loi de Zipf. Elle est pr&eacute;sente dans de nombreuses disciplines sans forcement de lien avec les objets d&#39;&eacute;tude historique qui sont le texte contenu dans un document ou l&#39;observation d&eacute;mographique. Elle couvre de nombreux domaines et invite &agrave; s&#39;interroger sur sa gen&egrave;se et sa persistance.</p> <p>D&#39;un point de vue historique, l&#39;oeuvre de Zipf est avant tout une qu&ecirc;te d&#39;universalit&eacute; dans une tentative de d&eacute;finir un cadre th&eacute;orique autour du principe du moindre effort. Si ce dernier ne propose aucune formalisation &agrave; travers une math&eacute;matisation, la loi de Zipf n&#39;entre pas explicitement dans ce cadre th&eacute;orique. La loi de Zipf repose avant tout sur l&#39;exp&eacute;rimentation qui conduit &agrave; un triptyque autour de la mod&eacute;lisation:&nbsp; l&#39;exp&eacute;rimentation, la prise en compte du contexte et la formalisation, c&#39;est &agrave; dire sa math&eacute;matisation. Sur ce dernier point, nous verrons que la discussion autour des param&egrave;tres, est une caract&eacute;ristique invitant aux d&eacute;bats autour des mod&egrave;les Zipfiens.</p> <p>Il est commun de d&eacute;finir le mod&egrave;le comme une repr&eacute;sentation partielle du monde. Nous avons choisi une approche plus r&eacute;flexive en pr&ocirc;nant le mod&egrave;le comme une repr&eacute;sentation cognitive du monde. Le mod&egrave;le serait alors une invitation au dialogue. %La controverses entre Simon et Mandelbrot en ai un exemple. Un langage commun est n&eacute;cessaire, aussi nous proposons une repr&eacute;sentation des mod&egrave;les Zipfiens &agrave; travers une formalisation math&eacute;matique commune. Cela permet de mieux appr&eacute;hender l&#39;intelligibilit&eacute; des mod&egrave;les pour mieux les comprendre &agrave; travers le langage commun des math&eacute;matiques. Rendre ces mod&egrave;les intelligibles permet de mieux en saisir les notions et les concepts sous-jacents et de produire des repr&eacute;sentations partag&eacute;es des mod&egrave;les Zipfiens.</p> <p>Si la fonction d&#39;intelligibilit&eacute; des mod&egrave;les ne pose pas ici d&eacute;bat, le principe de rationalit&eacute; m&eacute;rite une plus grande attention. En effet, ce principe suppose une formalisation de l&#39;observable. Pourtant &agrave; un m&ecirc;me ph&eacute;nom&egrave;ne Zipfien, plusieurs mod&egrave;les se sont construits, co-construit voir confront&eacute;s. La controverse entre Mandelbrot et Simon &agrave; travers une s&eacute;rie d&#39;article &agrave; produit une discussion argument&eacute;e avec des &eacute;l&eacute;ments divergents montrant l&#39;importance du contexte. Ce dernier point sera abord&eacute; dans le paragraphe ef{controverse}.</p> <p>Dans cette &eacute;tude, une premi&egrave;re partie s&#39;int&eacute;resse &agrave; l&#39;&eacute;tude des variation autour de l&#39;&eacute;nonc&eacute; loi de Zipf &agrave; travers les titres d&#39;articles scientifiques. C&#39;est un travail produit par l&#39;analyse des m&eacute;tadonn&eacute;es provenant du WoS et de Scopus. Une deuxi&egrave;me partie permettra d mieux comprendre la fronti&egrave;re entre loi et mod&egrave;le. Pour cela, nous pr&eacute;senterons d&#39;une part la loi de Zipf sous une forme math&eacute;matique, puis nous proposerons une pr&eacute;sentation des mod&egrave;les Zipfiens &agrave; partir du m&ecirc;me formalisme math&eacute;matique. Cela nous permettra de pr&eacute;senter un mod&egrave;le Zipfien construit &agrave; partir d&#39;autres mod&egrave;les et de proposer une exp&eacute;rimentation pour valider partiellement ce mod&egrave;le. La pr&eacute;sentation des mod&egrave;les appelle &agrave; une discussion autour des param&egrave;tres mis en oeuvre et plus particuli&egrave;rement de la valeur du <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> qui sera sujet &agrave; discussion dans le paragraphe ef{beta}.<br /> Enfin, dans une derni&egrave;re partie, la formalisation permettra de pr&eacute;senter la controverse en Simon et Mandelbrot.<br /> Les arguments avanc&eacute;s lors de la confrontation produit une argumentation o&ugrave; la nature SHS des donn&eacute;es ne porte pas tant sur la dimension math&eacute;matique que sur la nature de l&#39;object &eacute;tudi&eacute;. Cela nous permettra de conclure autour de la fronti&egrave;re entre STM et SHS quant &agrave; la probl&eacute;matisation des lois et des mod&egrave;les. Comment comprendre qu&#39;une loi puisse mobiliser des constantes ... qui sont variables ?</p> <h2>3 Loi de Zipf et les principaux mod&egrave;les Zipfiens</h2> <h3>L&#39;origine de la loi de Zipf</h3> <p>La loi de Zipf &eacute;nonc&eacute;e en 1949 [cite{zipf1949}] sur les r&eacute;gularit&eacute;s statistiques de la langue, est une loi surprenante &agrave; plus d&rsquo;un titre. Elle v&eacute;hicule de nombreuses origines tout en alimentant plusieurs controverses. R&eacute;siliente dans le temps, elle s&rsquo;applique &agrave; divers champs disciplinaires en pr&eacute;sentant par essence un aspect pluridisciplinaire [cite{bertin2020}]. Mod&eacute;lisation math&eacute;matique partant d&rsquo;une &eacute;nonciation du principe du moindre effort pour certains, observations d&rsquo;ing&eacute;nieur [cite{condon1928}] pour d&rsquo;autres, elle est interrog&eacute;e sur son sens, sa nature en tant que loi, ainsi que sur la port&eacute;e de son universalit&eacute;.</p> <p>A l&#39;origine l&#39;&eacute;nonc&eacute; math&eacute;matique de cette loi&nbsp; met en exergue les r&eacute;gularit&eacute;s statistiques des mots dans un texte. Si&nbsp; les mots du texte sont class&eacute;s par rang (not&eacute; <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />) de fr&eacute;quence d&eacute;croissante, la relation suivante est v&eacute;rifi&eacute;e :</p> <p><img alt="egin{equation} p_{r}= frac {K} {r^{eta}} quad r =1 dots V quad eta &gt; 0 end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p_%7Br%7D%3D%20%5Cfrac%20%7BK%7D%20%7Br%5E%7B%5Cbeta%7D%7D%20%5Cquad%20r%20%3D1%20%5Cdots%20V%20%5Cquad%20%5Cbeta%20%3E%200%20%5Cend%7Bequation%7D" /></p> <p>label{loizipf}</p> <p><img alt="p_{r}" src="https://latex.codecogs.com/gif.latex?p_%7Br%7D" /> est la probabilit&eacute; d&#39;occurence du mot de rang <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />, l&#39;exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est voisin de 1, <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est &eacute;gal &agrave; la taille du lexique, et <img alt="K" src="https://latex.codecogs.com/gif.latex?K" /> est&nbsp;&nbsp; une constante de normalisation.<br /> &nbsp;</p> <p>La validation de la loi s&rsquo;inscrit alors dans une d&eacute;marche classique des statistiques en Sciences Humaines et Sociales [cite{bressoux2010}]&nbsp; qui consiste chaque fois que les donn&eacute;es s&rsquo;y pr&ecirc;tent &agrave; construire, puis ajuster une distribution empirique par une distribution th&eacute;orique encore appel&eacute;e loi de probabilit&eacute; qui permet d&rsquo;ajuster un ph&eacute;nom&egrave;ne observable et intemporel.<br /> De tr&egrave;s nombreuses exp&eacute;rimentations ont &eacute;t&eacute; men&eacute;es sur des textes de types vari&eacute;s, de diff&eacute;rents genres (roman, essai, th&eacute;&acirc;tre&hellip;) de diff&eacute;rents auteurs (textes &eacute;crits), ou locuteurs (textes &eacute;nonc&eacute;s), dans de nombreuses langues.</p> <h3>Les mod&egrave;les explicatifs historiques</h3> <p>Les trois mod&egrave;les explicatifs historiques de la loi de extit{Zipf} sont pr&eacute;sent&eacute;s chronologiquement:</p> <ol> <li> <p>le mod&egrave;le communicationnel (1952),</p> </li> <li> <p>le mod&egrave;le stochastique (1955),</p> </li> <li> <p>le mod&egrave;le graphom&eacute;trique (1957).</p> </li> </ol> <p>Les mod&egrave;les graphom&eacute;triques et communicationnels ont pour seul objectif d&#39;expliquer cette loi.<br /> Le mod&egrave;le stochastique est plus g&eacute;n&eacute;ral. Les trois sont des mod&eacute;les math&eacute;matiques. Nous mettons dans ce paragraphe l&#39;accent sur les concepts sous jacents en formulant &agrave; minima le d&eacute;veloppant math&eacute;matique n&eacute;cessaire pour mieux les appr&eacute;hender.</p> <h4>Mod&egrave;le communicationnel</h4> <p>En 1952 dans sa th&egrave;se de doctorat [cite{mandelbrot1952}], extit{Mandelbrot}footnote{Beno&icirc;t Mandelbrot(1924-2010) est un math&eacute;maticien connu pour avoir d&eacute;fini une nouvelle classe d&#39;objet que sont les fractales.} pr&eacute;cise sa position &eacute;pist&eacute;mologique sur la langue en s&rsquo;inscrivant dans la continuit&eacute; des travaux du linguiste suisse extit{Ferdinand De Saussure}. Il souhaite alors &eacute;largir sa th&eacute;orie. Il consid&egrave;re la langue comme une s&eacute;quence al&eacute;atoire d&rsquo;entit&eacute;s concr&egrave;tes, et propose une estimation des probabilit&eacute;s de celles-ci.</p> <p>Il pr&eacute;conise&nbsp; une simplification extr&ecirc;me de la langue, n&eacute;cessaire selon lui, pour utiliser en linguistique des notions math&eacute;matiques. Il postule que les nombreuses &eacute;tudes faites par extit{Zipf} sur les distributions confirment quantitativement l&rsquo;hypoth&egrave;se de extit{De Saussure} sur la langue: elle&nbsp; peut &ecirc;tre per&ccedil;ue comme une construction d&rsquo;une suite de mots. N&eacute;anmoins il pense que extit{De Saussure} va trop loin dans sa construction et n&eacute;glige l&rsquo;adaptation du message &agrave; son support lors de sa transmission.<br /> Les travaux de extit{Zipf} sur l&#39;origine de la loi stipule&nbsp; qu&#39;il existe un compromis entre les efforts du locuteur et celui de l&#39;auditeur lors d&#39;un processus de communication. Cette hypoth&egrave;se est souvent formul&eacute;e avec&nbsp; le principe du moindre effort qui historiquement [cite{chang2016}] est li&eacute;e &agrave; cette loi. &nbsp;</p> <p>Mandelbrot<em> </em>le premier en 1953 [cite{mandelbrot1953}] traduit math&eacute;matiquement cette hypoth&egrave;se en s&#39;appuyant sur la th&eacute;orie de l&#39;information de extit{Shannon}. L&rsquo;id&eacute;e qui pr&eacute;side &agrave; ce mod&egrave;le est que les mots de faible longueur sont plus fr&eacute;quents, id&eacute;e &eacute;mise d&eacute;j&agrave; par extit{Zipf}, car ils n&eacute;cessitent moins d&rsquo;effort pour le locuteur. Il traduit cette hypoth&egrave;se en minimisant $C$&nbsp; le co&ucirc;t moyen, soit la quantit&eacute; moyenne d&#39;effort&nbsp; par unit&eacute; d&rsquo;information :</p> <p><br /> <img alt="egin{equation} C =frac{Ef}{Ht} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20C%20%3D%5Cfrac%7BEf%7D%7BHt%7D%20%5Cend%7Bequation%7D" /></p> <p>label{cout}</p> <p>o&ugrave; <img alt="Ef" src="https://latex.codecogs.com/gif.latex?Ef" /> est la quantit&eacute; d&rsquo;effort n&eacute;cessaire pour coder/d&eacute;coder, c&rsquo;est &agrave; dire communiquer, et <img alt="Ht" src="https://latex.codecogs.com/gif.latex?Ht" />&nbsp; l&rsquo;entropie de la distribution des fr&eacute;quences des mots du texte c&rsquo;est &agrave; dire la quantit&eacute; d&rsquo;information du message. Si <img alt="p_{r}" src="https://latex.codecogs.com/gif.latex?p_%7Br%7D" /> d&eacute;signe la probabilit&eacute; d&rsquo;un mot de rang <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />, il d&eacute;finit ces deux quantit&eacute;s par les &eacute;quations:<br /> <img alt="egin{equation} Ht= sum _{r=1}^{r=V} p_{r}. log ( p_{r}) end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20Ht%3D%20%5Csum%20_%7Br%3D1%7D%5E%7Br%3DV%7D%20p_%7Br%7D.%20%5Clog%20%28%20p_%7Br%7D%29%20%5Cend%7Bequation%7D" /></p> <p>label{entropie}</p> <p><img alt="egin{equation} Ef= sum _{r=1}^{r=V} p_{r}. log_{M} (r) end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20Ef%3D%20%5Csum%20_%7Br%3D1%7D%5E%7Br%3DV%7D%20p_%7Br%7D.%20%5Clog_%7BM%7D%20%28r%29%20%5Cend%7Bequation%7D" /></p> <p>label{effort}</p> <p>o&ugrave; <img alt="log_{M}" src="https://latex.codecogs.com/gif.latex?%5Clog_%7BM%7D" /> est le logarithme de base <img alt="M" src="https://latex.codecogs.com/gif.latex?M" />. <img alt="M" src="https://latex.codecogs.com/gif.latex?M" /> est le nombre de caract&egrave;res hormis les s&eacute;parateurs. Son hypoth&egrave;se le conduit &agrave; calculer footnote{On trouvera dans (cite[p 234]{mitzemacher2012}) une d&eacute;monstration math&eacute;matique&nbsp; tr&egrave;s claire de ce r&eacute;sultat.}&nbsp; l&#39;exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> de la loi (Voir ( ef{loizipf})) :</p> <p><img alt="egin{equation} eta =frac{Ht} {Ef} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D%5Cfrac%7BHt%7D%20%7BEf%7D%20%5Cend%7Bequation%7D" /></p> <p>label{beta}</p> <h4>Mod&egrave;le Stochastique</h4> <p>En 1955 extit{Simon}footnote{Herbert Alexander Simon (1916-2001) est &eacute;conomiste et a re&ccedil;u le prix nobel d&#39;&eacute;conomie en 1978.} [cite{simon1955}] publie un article&nbsp;&nbsp; sur une classe singuli&egrave;re de distributions statistiques dans des domaines vari&eacute;s : linguistique, scientom&eacute;trie, g&eacute;ographie, &eacute;conomie, biologie. Ces distributions ont une forme caract&eacute;ristique de J renvers&eacute; avec une longue tra&icirc;ne. Il cite cinq exemples c&eacute;l&egrave;bres :</p> <ul> <li> <p>distributions des mots dans les textes,</p> </li> <li> <p>distributions des articles des chercheurs, appel&eacute;e [cite{lotka1926}] loi de extit{Lotka}&nbsp; en scientom&eacute;trie,</p> </li> <li> <p>distributions des habitants&nbsp; dans les villes en g&eacute;ographie, observ&eacute;es [cite{auerbach1913}] d&egrave;s 1913 par extit{Auerbach},</p> </li> <li> <p>distributions du montant des salaires en &eacute;conomie, appel&eacute;e loi [cite{pareto1895}] de extit{Pareto} en &eacute;conomie,</p> </li> <li> <p>distributions des g&egrave;nes [cite{good1953}] dans les esp&egrave;ces en biologie.</p> </li> </ul> <p><br /> Elles sont dans des domaines diff&eacute;rents, et n&rsquo;ont pas de point commun, hormis leurs caract&eacute;ristiques statistiques. Il fait l&rsquo;hypoth&egrave;se que ces distributions empiriques&nbsp; ont pour densit&eacute; une fonction&nbsp; puissance inverse :<br /> &nbsp;&nbsp; &nbsp;<br /> <img alt="egin{equation} p_{f} = frac{H} {f^{alpha}} quad f=1,2 dots quad alpha &gt;1 end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p_%7Bf%7D%20%3D%20%5Cfrac%7BH%7D%20%7Bf%5E%7B%5Calpha%7D%7D%20%5Cquad%20f%3D1%2C2%20%5Cdots%20%5Cquad%20%5Calpha%20%3E1%20%5Cend%7Bequation%7D" /></p> <p>label{simon}<br /> o&ugrave; pour la distribution des mots, <img alt="p_{f}" src="https://latex.codecogs.com/gif.latex?p_%7Bf%7D" /> est la probabilit&eacute; d&#39;occurrence d&#39;un mot de fr&eacute;quence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />.</p> <p>La formule math&eacute;matique de la loi de extit{Zipf} (Voir ef{loizipf}) inscrit celle-ci dans cette classe de distributions. N&eacute;anmoins si les formules ( ef{loizipf}) et ( ef{simon}) sont toutes les deux des puissances inverses leur &eacute;criture sont&nbsp; diff&eacute;rentes, elles&nbsp; sont &eacute;quivalentes uniquement pour les fr&eacute;quences &eacute;lev&eacute;es. Dans ce cas on a la relation:</p> <p><img alt="egin{equation} eta approx frac{1}{alpha -1} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%5Capprox%20%5Cfrac%7B1%7D%7B%5Calpha%20-1%7D%20%5Cend%7Bequation%7D" /></p> <p>label{zipflotka}</p> <p>Simon construit un mod&egrave;le g&eacute;n&eacute;rique pour expliquer ce type de distribution : il choisit la distribution des mots, un exemple comme un autre selon lui. La langue n&#39;a pas de caract&egrave;re sp&eacute;cifique. C&#39;est une construction sociale comme une autre.<br /> &nbsp;Il s&#39;inspire des travaux du statisticien extit{Yule}&nbsp; [cite{yule1924}] pr&eacute;curseur de la th&eacute;orie des processus stochastiques. Il utilise une variante&nbsp; de la th&eacute;orie de l&#39;&eacute;volution enquote{so called birth or birth and death}. Il consid&egrave;re le texte comme une succession de mots produits au cours du temps, les uns apr&egrave;s les autres. Il fait deux hypoth&egrave;ses:</p> <ul> <li> <p>la premi&egrave;re concerne la r&eacute;utilisation d&rsquo;un mot. Apr&egrave;s avoir produit <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> mots, il suppose que la probabilit&eacute; que le (k+1)<sup>&egrave;me</sup> mot produit ait une fr&eacute;quence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />, soit proportionnelle au nombre total d&rsquo;occurrences des <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> mots pr&eacute;c&eacute;dents de fr&eacute;quence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />. &nbsp;</p> </li> <li> <p>la deuxi&egrave;me hypoth&egrave;se stipule qu&rsquo;il existe une probabilit&eacute; constante que le&nbsp; (k+1)<sup>&egrave;me</sup>&nbsp; mot soit nouveau, c&rsquo;est &agrave; dire non apparu dans les <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> premiers.</p> </li> </ul> <p>Ces deux hypoth&egrave;ses d&eacute;crivent un processus o&ugrave; la probabilit&eacute; qu&rsquo;un mot apparaisse dans le texte d&eacute;pend des mots qui sont ant&eacute;rieurement pr&eacute;sents. extit{Simon} va alors calculer footnote{Nous avons simplifi&eacute; sa d&eacute;marche nous renvoyons le lecteur &agrave; cite [ p 427-431]{simon1960}} le param&egrave;tre $alpha$ et donc $eta$:</p> <p><img alt="egin{equation} eta =1-frac{V}{T} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D1-%5Cfrac%7BV%7D%7BT%7D%20%5Cend%7Bequation%7D" /></p> <p>label{betasimon}</p> <p>o&ugrave; <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est la taille du lexique et <img alt="T" src="https://latex.codecogs.com/gif.latex?T" /> le nombre total de mots&nbsp; du texte.</p> <p>&nbsp;</p> <h4>Mod&egrave;le graphom&eacute;trique</h4> <p>L&rsquo;argument d&rsquo;optimisation de extit{Mandelbrot} pour expliquer la loi de <em>Zipf</em> a &eacute;t&eacute; tr&egrave;s vite contest&eacute;. Le simple fait de trouver un m&eacute;canisme convaincant pour expliquer une loi ne signifie pas qu&rsquo;il n&rsquo;y ait pas d&rsquo;autres mod&egrave;les explicatifs. En d&rsquo;autres termes s&rsquo;agit-il d&rsquo;une loi statistique tr&egrave;s g&eacute;n&eacute;rale, en rien sp&eacute;cifique au langage naturel ?</p> <p><br /> D&egrave;s 1957 <em>Miller</em>&nbsp; soul&egrave;ve la question. Il imagine [cite{miller1957}] un singe tapant au hasard sur une machine &agrave; &eacute;crire comportant <img alt="M" src="https://latex.codecogs.com/gif.latex?M" /> touches.<br /> Il suppose&nbsp; que toutes les touches du clavier, hormis la touche chariot, ont la m&ecirc;me chance d&rsquo;&ecirc;tre tap&eacute;es au hasard.<br /> Il note <img alt=" u" src="https://latex.codecogs.com/gif.latex?%5Cnu" /> cette probabilit&eacute;&nbsp; on a : <img alt=" u &lt; displaystyle frac{1}{M}" src="https://latex.codecogs.com/gif.latex?%5Cnu%20%3C%20%5Cdisplaystyle%20%5Cfrac%7B1%7D%7BM%7D" />.<br /> La probabilit&eacute; d&rsquo;&eacute;crire un mot de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> est alors une loi g&eacute;om&eacute;trique :</p> <p><br /> <img alt="egin{equation} P(L) = (1-M. u) (M. u)^{L} quad L=0,1,2 dots end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20P%28L%29%20%3D%20%281-M.%5Cnu%29%20%28M.%5Cnu%29%5E%7BL%7D%20%5Cquad%20L%3D0%2C1%2C2%20%5Cdots%20%5Cend%7Bequation%7D" /></p> <p>label{longueur}</p> <p><br /> Un texte est la juxtaposition de caract&egrave;res occupants chacun le m&ecirc;me espace.<br /> C&rsquo;est une suite de mots de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> variable, s&eacute;par&eacute;s par un caract&egrave;re sp&eacute;cifique.<br /> Supposons que les mots soient class&eacute;s par rang de fr&eacute;quences d&eacute;croissantes comme le fait extit{Zipf}.<br /> Si $L=2$ le rang $r$ d&rsquo;un tel mot v&eacute;rifie alors l&rsquo;in&eacute;galit&eacute;:<br /> <img alt="M&lt;r&lt;M+M^2." src="https://latex.codecogs.com/gif.latex?M%3Cr%3CM+M%5E2." /><br /> Plus g&eacute;n&eacute;ralement si <img alt="r(L)" src="https://latex.codecogs.com/gif.latex?r%28L%29" /> d&eacute;signe le rang d&rsquo;un mot de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> on a l&rsquo;in&eacute;galit&eacute; :<br /> <img alt="egin{equation} M+M^{2} dots M^{L-1}&lt;r(L)&lt;M+M^2 + dots M{^L} . end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20M+M%5E%7B2%7D%20%5Cdots%20M%5E%7BL-1%7D%3Cr%28L%29%3CM+M%5E2%20+%20%5Cdots%20M%7B%5EL%7D%20.%20%5Cend%7Bequation%7D" /></p> <p>label{exponentiel}</p> <p>Soit un mot quelconque <img alt="w" src="https://latex.codecogs.com/gif.latex?w" /> de rang <img alt="r(w)" src="https://latex.codecogs.com/gif.latex?r%28w%29" />, extit{Miller}] [cite{miller1957}] d&eacute;duit (Une d&eacute;monstration&nbsp; du m&ecirc;me r&eacute;sultat, dite des deux exponentielles, est faite en utilisant le mode continu dans&nbsp;&nbsp; [cite[p 13]{newman2005}]) des relations ( ef{longueur}) et ( ef{exponentiel}) le r&eacute;sultat:</p> <p><img alt="egin{equation} p(w)= frac{k}{(b +r(w))^{eta} } end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p%28w%29%3D%20%5Cfrac%7Bk%7D%7B%28b%20+r%28w%29%29%5E%7B%5Cbeta%7D%20%7D%20%5Cend%7Bequation%7D" /></p> <p>label{mandelbrotzipf}</p> <p>o&ugrave; <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> et <img alt="b" src="https://latex.codecogs.com/gif.latex?b" /> sont des constantes, et l&rsquo;exposant est :<br /> <img alt="egin{equation} eta =-frac{log( u)}{log(M)} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D-%5Cfrac%7B%5Clog%28%5Cnu%29%7D%7B%5Clog%28M%29%7D%20%5Cend%7Bequation%7D" /></p> <p>label{miller}</p> <p><br /> On remarquera que la formule ( ef{mandelbrotzipf}) est diff&eacute;rente&nbsp; de l&#39;&eacute;nonc&eacute; ( ef{loizipf}) puisque l&#39;on a fait une translation de <img alt="b" src="https://latex.codecogs.com/gif.latex?b" />&nbsp; sur le rang. En fait la loi de <em>Zipf</em> est &eacute;nonc&eacute;e sous cette forme par extit{Mandelbrot} d&egrave;s 1952. On aura compris que dans ce mod&egrave;le c&rsquo;est la combinaison de la graphie qui est en jeu et non directement la langue.</p> <p>&nbsp;</p> <p>&nbsp;</p> <h3><br /> Le param&egrave;tre <strong><img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /></strong></h3> <p>&nbsp;Cette loi singuli&egrave;re est caract&eacute;ris&eacute;e par un seul param&egrave;tre, l&rsquo;exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> de la distribution (rang fr&eacute;quence). Il a attir&eacute; l&#39;attention des chercheurs. Il ne faut pas oublier que <em>Zipf</em> a propos&eacute; initialement dans son ouvrage la simple&nbsp; relation o&ugrave; <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est absent (c&#39;est &agrave; dire &eacute;gal &agrave; un).</p> <p><img alt="r.f = K quad r=1,2 dots quad" src="https://latex.codecogs.com/gif.latex?r.f%20%3D%20K%20%5Cquad%20r%3D1%2C2%20%5Cdots%20%5Cquad" /></p> <p>o&ugrave;&nbsp; <img alt="K" src="https://latex.codecogs.com/gif.latex?K" />&nbsp; est une constante</p> <p><br /> &nbsp;On sait que sa valeur varie peu dans les exp&eacute;rimentations, elle est rarement inf&eacute;rieure &agrave; 0,9 ou sup&eacute;rieur &agrave; 1,3. Statistiquement, elle caract&eacute;rise la vari&eacute;t&eacute; du vocabulaire dans l&rsquo;utilisation des mots. <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> grand signifie une utilisation de mots fortement concentr&eacute;es sur les mots fr&eacute;quents,&nbsp;<img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> petit signifie une r&eacute;partition plus large.</p> <p>Il est souvent consid&eacute;r&eacute; comme une constante. Nous ne rencontrons pas en sciences humaines et sociales des constantes universelles qui sont par essence des caract&eacute;ristiques d&rsquo;autres sciences comme la physique.<br /> &nbsp;<br /> &nbsp;Les formules propos&eacute;es&nbsp;&nbsp; pour calculer <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> sont d&eacute;montr&eacute;es et concluent en quelque-sorte ces mod&egrave;les math&eacute;matiques, rappelons les 3 formules:</p> <ul> <li> <p>mod&egrave;le Communicationnel <img alt="eta =displaystyle {frac{Ht}{Ef}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D%5Cdisplaystyle%20%7B%5Cfrac%7BHt%7D%7BEf%7D%7D" /> <img alt="Ht" src="https://latex.codecogs.com/gif.latex?Ht" /> est l&#39;entropie, <img alt="Ef" src="https://latex.codecogs.com/gif.latex?Ef" /> la quantit&eacute; d&#39;effort.&nbsp; <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors per&ccedil;u comme un param&egrave;tre communicationnel quantifiant le co&ucirc;t de production d&#39;un texte.</p> </li> <li> <p>mod&egrave;le Stochastique <img alt="eta =1 -displaystyle {frac{V}{T}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D1%20-%5Cdisplaystyle%20%7B%5Cfrac%7BV%7D%7BT%7D%7D" />&nbsp;&nbsp; <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est la taille du lexique, <img alt="T" src="https://latex.codecogs.com/gif.latex?T" /> le nombre total de mots. <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors per&ccedil;u comme un nouveau param&egrave;tre lexicom&eacute;trique caract&eacute;risant un texte.&nbsp; Il est n&eacute;cessairement inf&eacute;rieur &agrave; 1 .&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;</p> </li> <li> <p>mod&egrave;le Graphom&eacute;trique <img alt="eta =- displaystyle{frac{log( u)}{M}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D-%20%5Cdisplaystyle%7B%5Cfrac%7Blog%28%5Cnu%29%7D%7BM%7D%7D" />&nbsp; <img alt="M" src="https://latex.codecogs.com/gif.latex?M" />est le nombre de lettres, <img alt=" u" src="https://latex.codecogs.com/gif.latex?%5Cnu" /> la probabilit&eacute; d&#39;occurrence d&#39;une lettre.&nbsp;<img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors per&ccedil;u comme un param&egrave;tre graphom&eacute;trique de l&#39;&eacute;criture d&#39;un texte. Il est n&eacute;cessairement sup&eacute;rieur &agrave; 1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;</p> </li> </ul> <p>&nbsp;<br /> Les modes de calcul sont &eacute;trangers l&#39;un &agrave; l&#39;autre et sont totalement ind&eacute;pendants de l&#39;exp&eacute;rimentation.<br /> Il est tentant de dire que les variations de <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> autour de 1 sont des ph&eacute;nom&egrave;nes qui ne rel&egrave;vent pas de la loi mais des conditions de l&#39;exp&eacute;rimentation. Ce param&egrave;tre va induire chez les chercheurs diff&eacute;rentes questions. Peut-on caract&eacute;riser&nbsp; le genre d&#39;un texte par ce param&egrave;tre ? La valeur de <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est-elle une caract&eacute;ristique de la langue, du style&nbsp; du texte?&nbsp; Toutes ces questions vont susciter de nombreuses &eacute;tudes et pol&eacute;miques. En effet dans le cas du mod&egrave;le stochastique (ou du moins dans sa forme originel ) <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est n&eacute;cessairement inf&eacute;rieur &agrave; 1, ce qui n&#39;est pas le cas du mod&egrave;le communicationnel. Cela va &ecirc;tre le d&eacute;clencheur comme on va le voir d&#39;une controverse passionn&eacute;e.</p> <h2>4 Les mod&egrave;les comme fonction de dialogue</h2> <p>label{controverse}</p> <p>Nous commen&ccedil;ons ce paragraphe en rapportant la c&eacute;l&egrave;bre controverse entre Mandelbrot et Simon. Ce d&eacute;bat&nbsp; se d&eacute;roule entre 1959 et 1961. Il a pour point de d&eacute;part une critique de Herbert A. Simon, fondateur du mod&egrave;le stochastique, dans son article publi&eacute; en 1955. Il critique entre autres l&rsquo;utilisation de la th&eacute;orie de l&rsquo;information de Shannon par Mandelbrot. Il juge le mod&egrave;le de Mandelbrot inappropri&eacute;. Puis les deux chercheurs publient 6 articles dans la revue Information and Control dans lesquels ils justifient la pertinence de leur mod&egrave;le et critiquent les faiblesses de l&rsquo;autre. Cette controverse repose avant tout sur un dialogue avec des hypoth&egrave;ses et des repr&eacute;sentations diff&eacute;rentes d&rsquo;un m&ecirc;me objet math&eacute;matique, mais qui repose sur des motivations, des hypoth&egrave;ses et des approximations diff&eacute;rentes. &Agrave; la rigueur math&eacute;matique dont font preuve les protagonistes dans leurs argumentations, s&rsquo;oppose une incompr&eacute;hension croissante au cours de leurs &eacute;changes respectifs. Cette controverse permet de mieux comprendre pourquoi cette loi va susciter de nombreux d&eacute;bats et &ecirc;tre &agrave; l&#39;origine de recherches singuli&egrave;res dans des domaines inattendus.</p> <h3>Entre objet math&eacute;matique et construction sociale</h3> <p>Dans sa premi&egrave;re note critique, publi&eacute;e en 1959, Mandelbrot soul&egrave;ve deux points :</p> <ul> <li> <p>tout d&rsquo;abord, il r&eacute;fute les arguments de Simon qui lui reproche d&rsquo;utiliser la th&eacute;orie de l&rsquo;information dans un sens d&eacute;voy&eacute; : selon lui, il distingue clairement entropie et information s&eacute;mantique.</p> </li> <li> <p>Puis il critique la d&eacute;marche de Simon, qui pense obtenir &agrave; l&rsquo;aide d&rsquo;une simple variante de la th&eacute;orie de l&rsquo;&eacute;volution de Yule&nbsp; &laquo; so called birth or birth and death &raquo; un mod&egrave;le g&eacute;n&eacute;rique des distributions de type Zipfienne ( d&eacute;nom&eacute;es aussi Z). Il pr&eacute;cise que cette recherche est un d&eacute;fi important. N&eacute;anmoins, si un tel mod&egrave;le existe, il devrait s&rsquo;appuyer sur une hypoth&egrave;se faible mais aussi g&eacute;n&eacute;rale que celle qui explique le r&ocirc;le des distributions gaussiennes. Or les lois de type Z s&rsquo;av&egrave;rent r&eacute;sistantes &agrave; une telle analyse.</p> </li> </ul> <p>Simon r&eacute;pond en pr&eacute;cisant son positionnement &eacute;pist&eacute;mologique. Il lui semble plus cr&eacute;dible d&rsquo;expliquer les r&eacute;gularit&eacute;s empiriques de la langue comme le r&eacute;sultat d&rsquo;un processus stochastique, r&eacute;sultant d&rsquo;association et d&rsquo;imitation, mis en &oelig;uvre dans le mod&egrave;le de Yule, plut&ocirc;t que de proposer un m&eacute;canisme maximisant la quantit&eacute; d&rsquo;information transmis par symbole. Cela lui para&icirc;t plus juste qu&rsquo;une explication bas&eacute;e sur les propri&eacute;t&eacute;s statistiques du codage. Il critique l&rsquo;argument de Mandelbrot liant la longueur des mots et leur fr&eacute;quence. Il rappelle que les distributions (fr&eacute;quence, longueur des mots) sont tr&egrave;s irr&eacute;guli&egrave;res. Pour Simon, s&rsquo;il existe une liaison, ce n&rsquo;est pas dans le sens que propose Mandelbrot. C&rsquo;est l&rsquo;usage intensif des mots qui fait que ceux-ci deviennent abr&eacute;g&eacute;s et non l&rsquo;inverse. Cela va selon lui &agrave; l&rsquo;encontre de la minimisation des co&ucirc;ts pour expliquer la loi. Enfin il justifie l&rsquo;utilisation de son mod&egrave;le car les ph&eacute;nom&egrave;nes d&rsquo;association et d&rsquo;imitation sont coh&eacute;rents avec ce que nous savons sur les processus sociaux et psychologiques : &laquo; Cette d&eacute;rivation il parle de son mod&egrave;le a l&rsquo;avantage de ne pas supposer d&rsquo;optimisation en termes de co&ucirc;t ; elle part de l&rsquo;hypoth&egrave;se plus acceptable que la source humaine&nbsp; est un processus stochastique&nbsp; &raquo;.</p> <p>&Agrave; partir du quatri&egrave;me article, la discussion porte essentiellement sur les aspects math&eacute;matiques du mod&egrave;le et les &eacute;changes entre les deux chercheurs vont &ecirc;tre vifs. N&eacute;anmoins, il faut savoir que lorsque l&rsquo;on mod&eacute;lise &agrave; l&rsquo;aide des math&eacute;matiques, une d&eacute;monstration peut s&rsquo;exprimer de plusieurs fa&ccedil;ons, math&eacute;matiquement juste, faisant appel &agrave; des intuitions et approximations diff&eacute;rentes. Il est m&ecirc;me possible de retrouver un r&eacute;sultat en critiquant la m&eacute;thode qui l&rsquo;a produit. Cette querelle, &agrave; la lecture des textes, est souvent une cons&eacute;quence d&rsquo;une approximation, d&rsquo;une hypoth&egrave;se math&eacute;matique forte, contest&eacute;e car trop peu r&eacute;aliste. Les positions de Simon et de Mandelbrot sont oppos&eacute;es. Mandelbrot consid&egrave;re la langue comme un objet math&eacute;matique. Un texte est un message compos&eacute; d&rsquo;une suite de caract&egrave;res discrets mod&eacute;lis&eacute;s par la loi de Zipf, qui trouve son explication dans la th&eacute;orie statistique de la communication de l&rsquo;information de Shannon. Simon consid&egrave;re la langue avant tout comme une construction sociale en empruntant &agrave; la biologie le concept d&rsquo;avantage cumulatif des processus de la th&eacute;orie de l&rsquo;&eacute;volution. La loi de Zipf est un cas particulier parmi de nombreux autres processus sociaux et psychosociaux.</p> <h3>Des nouvelles perspectives de&nbsp; recherches</h3> <p>L&#39;objectif premier des mod&egrave;les &eacute;tait d&#39;expliquer le pourquoi de ces&nbsp; r&eacute;gularit&eacute;s dans les textes. Ils sont convoqu&eacute;s dans des probl&eacute;matiques tout autres et feront fonction de dialogue.</p> <p>&nbsp;Le premier mod&egrave;le contribue &agrave; poser le probl&egrave;me de l&#39;universalit&eacute; de cette loi. Puisque qu&#39;un texte quelconque v&eacute;rifie ces r&eacute;gularit&eacute;s et qu&#39;il n&#39;existe pas de langue qui soit un outil de communication, c&#39;est qu&#39;il existe une raison structurelle sup&eacute;rieure&nbsp; qui explique ce ph&eacute;nom&egrave;ne de r&eacute;gularit&eacute; [cite{ferrer2007a}].</p> <p><br /> Le deuxi&egrave;me mod&egrave;le&nbsp; replace la loi de<em> Zipf</em> dans un contexte sociologique bien plus large et va &ecirc;tre &agrave; l&#39;origine d&#39;autres travaux.<br /> Ils vont utiliser le m&ecirc;me&nbsp; principe connu sous le nom d&#39;accumulation ou de r&eacute;utilisation dans des domaines diff&eacute;rents:</p> <ul> <li> <p>Le principe des avantages cumulatifs&nbsp; [ cite{price1976}&nbsp; ] de Solla Price en scientom&eacute;trie, s&#39;appuyant sur les travaux&nbsp; du sociologue <em>Merton</em>.&nbsp; Merton R.K (1910-2003) est un sociologue&nbsp;&nbsp; des sciences connu pour le concept de &quot;Mathew Effect in Science&quot; (Sciences, 159(3810) 56-53).</p> </li> <li> <p>L&#39;attachement pr&eacute;f&eacute;rentiel pour expliquer les sp&eacute;cificit&eacute;s du graphe du Web en informatique [&nbsp; cite[p 231]{mitzemacher2012} ].</p> </li> </ul> <p>Enfin le troisi&egrave;me mod&egrave;le va questionner la notion de texte al&eacute;atoire [cite{ferrer2010}]. Cela&nbsp; am&egrave;ne &agrave; reposer la questions&nbsp; de l&#39;&eacute;criture comme une technique s&#39;apparentant aux cite[p180-182]{lafouge2012} technologies de l&#39;intellect d&eacute;finies par l&#39;anthropologue extit{Jack Goody}. L&#39; existence de l&#39;&eacute;criture est questionn&eacute;e&nbsp; en arch&eacute;ologie &agrave; l&#39;aide de la loi de Zipf [cite{reginald2007}].</p> <p>&nbsp;</p> <p>&nbsp;</p> <p>&nbsp;</p> <p>&nbsp;</p> <p>&nbsp;</p> <p>&nbsp;</p> <p>&nbsp;</p>