<h2><br /> Loi de Zipf et les principaux mod&egrave;les Zipfiens</h2> <h3>L&#39;origine de la loi de Zipf</h3> <p>La loi de Zipf &eacute;nonc&eacute;e en 1949 [cite{zipf1949}] sur les r&eacute;gularit&eacute;s statistiques de la langue, est une loi surprenante &agrave; plus d&rsquo;un titre. Elle v&eacute;hicule de nombreuses origines tout en alimentant plusieurs controverses. R&eacute;siliente dans le temps, elle s&rsquo;applique &agrave; divers champs disciplinaires en pr&eacute;sentant par essence un aspect pluridisciplinaire [cite{bertin2020}]. Mod&eacute;lisation math&eacute;matique partant d&rsquo;une &eacute;nonciation du principe du moindre effort pour certains, observations d&rsquo;ing&eacute;nieur [cite{condon1928}] pour d&rsquo;autres, elle est interrog&eacute;e sur son sens, sa nature en tant que loi, ainsi que sur la port&eacute;e de son universalit&eacute;.</p> <p>A l&#39;origine l&#39;&eacute;nonc&eacute; math&eacute;matique de cette loi&nbsp; met en exergue les r&eacute;gularit&eacute;s statistiques des mots dans un texte. Si&nbsp; les mots du texte sont class&eacute;s par rang (not&eacute; <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />) de fr&eacute;quence d&eacute;croissante, la relation suivante est v&eacute;rifi&eacute;e :</p> <p><img alt="egin{equation} p_{r}= frac {K} {r^{eta}} quad r =1 dots V quad eta &gt; 0 end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p_%7Br%7D%3D%20%5Cfrac%20%7BK%7D%20%7Br%5E%7B%5Cbeta%7D%7D%20%5Cquad%20r%20%3D1%20%5Cdots%20V%20%5Cquad%20%5Cbeta%20%3E%200%20%5Cend%7Bequation%7D" /></p> <p>label{loizipf}</p> <p><br /> <img alt="p_{r}" src="https://latex.codecogs.com/gif.latex?p_%7Br%7D" /> est la probabilit&eacute; d&#39;occurence du mot de rang <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />, l&#39;exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est voisin de 1, <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est &eacute;gal &agrave; la taille du lexique, et <img alt="K" src="https://latex.codecogs.com/gif.latex?K" /> est&nbsp;&nbsp; une constante de normalisation.<br /> &nbsp;</p> <p>La validation de la loi s&rsquo;inscrit alors dans une d&eacute;marche classique des statistiques en Sciences Humaines et Sociales [cite{bressoux2010}]&nbsp; qui consiste chaque fois que les donn&eacute;es s&rsquo;y pr&ecirc;tent &agrave; construire, puis ajuster une distribution empirique par une distribution th&eacute;orique encore appel&eacute;e loi de probabilit&eacute; qui permet d&rsquo;ajuster un ph&eacute;nom&egrave;ne observable et intemporel.<br /> De tr&egrave;s nombreuses exp&eacute;rimentations ont &eacute;t&eacute; men&eacute;es sur des textes de types vari&eacute;s, de diff&eacute;rents genres (roman, essai, th&eacute;&acirc;tre&hellip;) de diff&eacute;rents auteurs (textes &eacute;crits), ou locuteurs (textes &eacute;nonc&eacute;s), dans de nombreuses langues.</p> <p>&nbsp;</p> <h3>Les mod&egrave;les explicatifs historiques</h3> <p>Les trois mod&egrave;les explicatifs historiques de la loi de extit{Zipf} sont pr&eacute;sent&eacute;s chronologiquement:</p> <ol> <li>le mod&egrave;le communicationnel (1952),</li> <li>le mod&egrave;le stochastique (1955),</li> <li>le mod&egrave;le graphom&eacute;trique (1957).</li> </ol> <p>Les mod&egrave;les graphom&eacute;triques et communicationnels ont pour seul objectif d&#39;expliquer cette loi.<br /> Le mod&egrave;le stochastique est plus g&eacute;n&eacute;ral. Les trois sont des mod&eacute;les math&eacute;matiques. Nous mettons dans ce paragraphe l&#39;accent sur les concepts sous jacents en formulant &agrave; minima le d&eacute;veloppant math&eacute;matique n&eacute;cessaire pour mieux les appr&eacute;hender.</p> <h4>Mod&egrave;le communicationnel</h4> <p>En 1952 dans sa th&egrave;se de doctorat [cite{mandelbrot1952}], extit{Mandelbrot}footnote{Beno&icirc;t Mandelbrot(1924-2010) est un math&eacute;maticien connu pour avoir d&eacute;fini une nouvelle classe d&#39;objet que sont les fractales.} pr&eacute;cise sa position &eacute;pist&eacute;mologique sur la langue en s&rsquo;inscrivant dans la continuit&eacute; des travaux du linguiste suisse extit{Ferdinand De Saussure}. Il souhaite alors &eacute;largir sa th&eacute;orie. Il consid&egrave;re la langue comme une s&eacute;quence al&eacute;atoire d&rsquo;entit&eacute;s concr&egrave;tes, et propose une estimation des probabilit&eacute;s de celles-ci.</p> <p><br /> Il pr&eacute;conise&nbsp; une simplification extr&ecirc;me de la langue, n&eacute;cessaire selon lui, pour utiliser en linguistique des notions math&eacute;matiques. Il postule que les nombreuses &eacute;tudes faites par extit{Zipf} sur les distributions confirment quantitativement l&rsquo;hypoth&egrave;se de extit{De Saussure} sur la langue: elle&nbsp; peut &ecirc;tre per&ccedil;ue comme une construction d&rsquo;une suite de mots. N&eacute;anmoins il pense que extit{De Saussure} va trop loin dans sa construction et n&eacute;glige l&rsquo;adaptation du message &agrave; son support lors de sa transmission.\<br /> Les travaux de extit{Zipf} sur l&#39;origine de la loi stipule&nbsp; qu&#39;il existe un compromis entre les efforts du locuteur et celui de l&#39;auditeur lors d&#39;un processus de communication. Cette hypoth&egrave;se est souvent formul&eacute;e avec&nbsp; le principe du moindre effort qui historiquement [cite{chang2016}] est li&eacute;e &agrave; cette loi. &nbsp;</p> <p><br /> extit{Mandelbrot} le premier en 1953 [cite{mandelbrot1953}] traduit math&eacute;matiquement cette hypoth&egrave;se en s&#39;appuyant sur la th&eacute;orie de l&#39;information de extit{Shannon}.<br /> L&rsquo;id&eacute;e qui pr&eacute;side &agrave; ce mod&egrave;le est que les mots de faible longueur sont plus fr&eacute;quents, id&eacute;e &eacute;mise d&eacute;j&agrave; par extit{Zipf}, car ils n&eacute;cessitent moins d&rsquo;effort pour le locuteur. Il traduit cette hypoth&egrave;se en minimisant $C$&nbsp; le co&ucirc;t moyen, soit la quantit&eacute; moyenne d&#39;effort&nbsp; par unit&eacute; d&rsquo;information :</p> <p><br /> <img alt="egin{equation} C =frac{Ef}{Ht} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20C%20%3D%5Cfrac%7BEf%7D%7BHt%7D%20%5Cend%7Bequation%7D" /></p> <p>label{cout}</p> <p><br /> o&ugrave; <img alt="Ef" src="https://latex.codecogs.com/gif.latex?Ef" /> est la quantit&eacute; d&rsquo;effort n&eacute;cessaire pour coder/d&eacute;coder, c&rsquo;est &agrave; dire communiquer, et <img alt="Ht" src="https://latex.codecogs.com/gif.latex?Ht" />&nbsp; l&rsquo;entropie de la distribution des fr&eacute;quences des mots du texte c&rsquo;est &agrave; dire la quantit&eacute; d&rsquo;information du message. Si <img alt="p_{r}" src="https://latex.codecogs.com/gif.latex?p_%7Br%7D" /> d&eacute;signe la probabilit&eacute; d&rsquo;un mot de rang <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />, il d&eacute;finit ces deux quantit&eacute;s par les &eacute;quations:<br /> <img alt="egin{equation} Ht= sum _{r=1}^{r=V} p_{r}. log ( p_{r}) end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20Ht%3D%20%5Csum%20_%7Br%3D1%7D%5E%7Br%3DV%7D%20p_%7Br%7D.%20%5Clog%20%28%20p_%7Br%7D%29%20%5Cend%7Bequation%7D" /></p> <p>label{entropie}</p> <p><img alt="egin{equation} Ef= sum _{r=1}^{r=V} p_{r}. log_{M} (r) end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20Ef%3D%20%5Csum%20_%7Br%3D1%7D%5E%7Br%3DV%7D%20p_%7Br%7D.%20%5Clog_%7BM%7D%20%28r%29%20%5Cend%7Bequation%7D" /></p> <p>label{effort}</p> <p><br /> o&ugrave; <img alt="log_{M}" src="https://latex.codecogs.com/gif.latex?%5Clog_%7BM%7D" /> est le logarithme de base <img alt="M" src="https://latex.codecogs.com/gif.latex?M" />. <img alt="M" src="https://latex.codecogs.com/gif.latex?M" /> est le nombre de caract&egrave;res hormis les s&eacute;parateurs. Son hypoth&egrave;se le conduit &agrave; calculer footnote{On trouvera dans (cite[p 234]{mitzemacher2012}) une d&eacute;monstration math&eacute;matique&nbsp; tr&egrave;s claire de ce r&eacute;sultat.}&nbsp; l&#39;exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> de la loi (Voir ( ef{loizipf})) :</p> <p><img alt="egin{equation} eta =frac{Ht} {Ef} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D%5Cfrac%7BHt%7D%20%7BEf%7D%20%5Cend%7Bequation%7D" /></p> <p>label{beta}</p> <h4>Mod&egrave;le Stochastique</h4> <p><br /> En 1955 extit{Simon}footnote{Herbert Alexander Simon (1916-2001) est &eacute;conomiste et a re&ccedil;u le prix nobel d&#39;&eacute;conomie en 1978.} [cite{simon1955}] publie un article&nbsp;&nbsp; sur une classe singuli&egrave;re de distributions statistiques dans des domaines vari&eacute;s : linguistique, scientom&eacute;trie, g&eacute;ographie, &eacute;conomie, biologie. Ces distributions ont une forme caract&eacute;ristique de J renvers&eacute; avec une longue tra&icirc;ne. Il cite cinq exemples c&eacute;l&egrave;bres :</p> <ul> <li>distributions des mots dans les textes,</li> <li>distributions des articles des chercheurs, appel&eacute;e [cite{lotka1926}] loi de extit{Lotka}&nbsp; en scientom&eacute;trie,</li> <li>distributions des habitants&nbsp; dans les villes en g&eacute;ographie, observ&eacute;es [cite{auerbach1913}] d&egrave;s 1913 par extit{Auerbach},</li> <li>distributions du montant des salaires en &eacute;conomie, appel&eacute;e loi [cite{pareto1895}] de extit{Pareto} en &eacute;conomie,</li> <li>distributions des g&egrave;nes [cite{good1953}] dans les esp&egrave;ces en biologie.</li> </ul> <p><br /> Elles sont dans des domaines diff&eacute;rents, et n&rsquo;ont pas de point commun, hormis leurs caract&eacute;ristiques statistiques. Il fait l&rsquo;hypoth&egrave;se que ces distributions empiriques&nbsp; ont pour densit&eacute; une fonction&nbsp; puissance inverse :<br /> &nbsp;&nbsp; &nbsp;<br /> <img alt="egin{equation} p_{f} = frac{H} {f^{alpha}} quad f=1,2 dots quad alpha &gt;1 end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p_%7Bf%7D%20%3D%20%5Cfrac%7BH%7D%20%7Bf%5E%7B%5Calpha%7D%7D%20%5Cquad%20f%3D1%2C2%20%5Cdots%20%5Cquad%20%5Calpha%20%3E1%20%5Cend%7Bequation%7D" /></p> <p>label{simon}</p> <p><br /> o&ugrave; pour la distribution des mots, <img alt="p_{f}" src="https://latex.codecogs.com/gif.latex?p_%7Bf%7D" /> est la probabilit&eacute; d&#39;occurrence d&#39;un mot de fr&eacute;quence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />.<br /> La formule math&eacute;matique de la loi de extit{Zipf} (Voir ef{loizipf}) inscrit celle-ci dans cette classe de distributions. N&eacute;anmoins si les formules ( ef{loizipf}) et ( ef{simon}) sont toutes les deux des puissances inverses leur &eacute;criture sont&nbsp; diff&eacute;rentes, elles&nbsp; sont &eacute;quivalentes uniquement pour les fr&eacute;quences &eacute;lev&eacute;es. Dans ce cas on a la relation:</p> <p><img alt="egin{equation} eta approx frac{1}{alpha -1} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%5Capprox%20%5Cfrac%7B1%7D%7B%5Calpha%20-1%7D%20%5Cend%7Bequation%7D" /></p> <p>label{zipflotka}</p> <p><br /> extit{Simon} construit un mod&egrave;le g&eacute;n&eacute;rique pour expliquer ce type de distribution :<br /> &nbsp; il choisit la distribution des mots, un exemple comme un autre selon lui. La langue n&#39;a pas de caract&egrave;re sp&eacute;cifique. C&#39;est une construction sociale comme une autre.<br /> &nbsp;Il s&#39;inspire des travaux du statisticien extit{Yule}&nbsp; [cite{yule1924}] pr&eacute;curseur de la th&eacute;orie des processus stochastiques. Il utilise une variante&nbsp; de la th&eacute;orie de l&#39;&eacute;volution enquote{so called birth or birth and death}. Il consid&egrave;re le texte comme une succession de mots produits au cours du temps, les uns apr&egrave;s les autres. Il fait deux hypoth&egrave;ses:</p> <p>&nbsp;</p> <ul> <li>la premi&egrave;re concerne la r&eacute;utilisation d&rsquo;un mot. Apr&egrave;s avoir produit <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> mots, il suppose que la probabilit&eacute; que le (k+1)<sup>&egrave;me</sup> mot produit ait une fr&eacute;quence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />, soit proportionnelle au nombre total d&rsquo;occurrences des <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> mots pr&eacute;c&eacute;dents de fr&eacute;quence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />. &nbsp;</li> <li>la deuxi&egrave;me hypoth&egrave;se stipule qu&rsquo;il existe une probabilit&eacute; constante que le&nbsp; (k+1)<sup>&egrave;me</sup>&nbsp; mot soit nouveau, c&rsquo;est &agrave; dire non apparu dans les <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> premiers.</li> </ul> <p>&nbsp;</p> <p>Ces deux hypoth&egrave;ses d&eacute;crivent un processus o&ugrave; la probabilit&eacute; qu&rsquo;un mot apparaisse dans le texte d&eacute;pend des mots qui sont ant&eacute;rieurement pr&eacute;sents. extit{Simon} va alors calculer footnote{Nous avons simplifi&eacute; sa d&eacute;marche nous renvoyons le lecteur &agrave; cite [ p 427-431]{simon1960}} le param&egrave;tre $alpha$ et donc $eta$:</p> <p><img alt="egin{equation} eta =1-frac{V}{T} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D1-%5Cfrac%7BV%7D%7BT%7D%20%5Cend%7Bequation%7D" /></p> <p>label{betasimon}</p> <p><br /> o&ugrave; <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est la taille du lexique et <img alt="T" src="https://latex.codecogs.com/gif.latex?T" /> le nombre total de mots&nbsp; du texte.</p> <p>&nbsp;</p> <h4>Mod&egrave;le graphom&eacute;trique</h4> <p><br /> L&rsquo;argument d&rsquo;optimisation de extit{Mandelbrot} pour expliquer la loi de <em>Zipf</em> a &eacute;t&eacute; tr&egrave;s vite contest&eacute;. Le simple fait de trouver un m&eacute;canisme convaincant pour expliquer une loi ne signifie pas qu&rsquo;il n&rsquo;y ait pas d&rsquo;autres mod&egrave;les explicatifs. En d&rsquo;autres termes s&rsquo;agit-il d&rsquo;une loi statistique tr&egrave;s g&eacute;n&eacute;rale, en rien sp&eacute;cifique au langage naturel ?</p> <p><br /> D&egrave;s 1957 <em>Miller</em>&nbsp; soul&egrave;ve la question. Il imagine [cite{miller1957}] un singe tapant au hasard sur une machine &agrave; &eacute;crire comportant <img alt="M" src="https://latex.codecogs.com/gif.latex?M" /> touches.<br /> Il suppose&nbsp; que toutes les touches du clavier, hormis la touche chariot, ont la m&ecirc;me chance d&rsquo;&ecirc;tre tap&eacute;es au hasard.<br /> Il note <img alt=" u" src="https://latex.codecogs.com/gif.latex?%5Cnu" /> cette probabilit&eacute;&nbsp; on a : <img alt=" u &lt; displaystyle frac{1}{M}" src="https://latex.codecogs.com/gif.latex?%5Cnu%20%3C%20%5Cdisplaystyle%20%5Cfrac%7B1%7D%7BM%7D" />.<br /> La probabilit&eacute; d&rsquo;&eacute;crire un mot de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> est alors une loi g&eacute;om&eacute;trique :<br /> <img alt="egin{equation} P(L) = (1-M. u) (M. u)^{L} quad L=0,1,2 dots end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20P%28L%29%20%3D%20%281-M.%5Cnu%29%20%28M.%5Cnu%29%5E%7BL%7D%20%5Cquad%20L%3D0%2C1%2C2%20%5Cdots%20%5Cend%7Bequation%7D" /></p> <p>label{longueur}</p> <p><br /> Un texte est la juxtaposition de caract&egrave;res occupants chacun le m&ecirc;me espace.<br /> C&rsquo;est une suite de mots de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> variable, s&eacute;par&eacute;s par un caract&egrave;re sp&eacute;cifique.<br /> Supposons que les mots soient class&eacute;s par rang de fr&eacute;quences d&eacute;croissantes comme le fait extit{Zipf}.<br /> Si $L=2$ le rang $r$ d&rsquo;un tel mot v&eacute;rifie alors l&rsquo;in&eacute;galit&eacute;:<br /> <img alt="M&lt;r&lt;M+M^2." src="https://latex.codecogs.com/gif.latex?M%3Cr%3CM&amp;plus;M%5E2." /><br /> Plus g&eacute;n&eacute;ralement si <img alt="r(L)" src="https://latex.codecogs.com/gif.latex?r%28L%29" /> d&eacute;signe le rang d&rsquo;un mot de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> on a l&rsquo;in&eacute;galit&eacute; :<br /> <img alt="egin{equation} M+M^{2} dots M^{L-1}&lt;r(L)&lt;M+M^2 + dots M{^L} . end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20M&amp;plus;M%5E%7B2%7D%20%5Cdots%20M%5E%7BL-1%7D%3Cr%28L%29%3CM&amp;plus;M%5E2%20&amp;plus;%20%5Cdots%20M%7B%5EL%7D%20.%20%5Cend%7Bequation%7D" /></p> <p>label{exponentiel}</p> <p>Soit un mot quelconque <img alt="w" src="https://latex.codecogs.com/gif.latex?w" /> de rang <img alt="r(w)" src="https://latex.codecogs.com/gif.latex?r%28w%29" />, extit{Miller}] [cite{miller1957}] d&eacute;duit (Une d&eacute;monstration&nbsp; du m&ecirc;me r&eacute;sultat, dite des deux exponentielles, est faite en utilisant le mode continu dans&nbsp;&nbsp; [cite[p 13]{newman2005}]) des relations ( ef{longueur}) et ( ef{exponentiel}) le r&eacute;sultat:</p> <p><img alt="egin{equation} p(w)= frac{k}{(b +r(w))^{eta} } end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p%28w%29%3D%20%5Cfrac%7Bk%7D%7B%28b%20&amp;plus;r%28w%29%29%5E%7B%5Cbeta%7D%20%7D%20%5Cend%7Bequation%7D" /></p> <p>label{mandelbrotzipf}</p> <p>o&ugrave; <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> et <img alt="b" src="https://latex.codecogs.com/gif.latex?b" /> sont des constantes, et l&rsquo;exposant est :<br /> <img alt="egin{equation} eta =-frac{log( u)}{log(M)} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D-%5Cfrac%7B%5Clog%28%5Cnu%29%7D%7B%5Clog%28M%29%7D%20%5Cend%7Bequation%7D" /></p> <p>label{miller}<br /> On remarquera que la formule ( ef{mandelbrotzipf}) est diff&eacute;rente&nbsp; de l&#39;&eacute;nonc&eacute; ( ef{loizipf}) puisque l&#39;on a fait une translation de <img alt="b" src="https://latex.codecogs.com/gif.latex?b" />&nbsp; sur le rang. En fait la loi de <em>Zipf</em> est &eacute;nonc&eacute;e sous cette forme par extit{Mandelbrot} d&egrave;s 1952.<br /> On aura compris que dans ce mod&egrave;le c&rsquo;est la combinaison de la graphie qui est en jeu et non directement la langue.</p> <p>&nbsp;</p> <p>&nbsp;</p> <h3><br /> Le param&egrave;tre <strong><img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /></strong></h3> <p>&nbsp;Cette loi singuli&egrave;re est caract&eacute;ris&eacute;e par un seul param&egrave;tre, l&rsquo;exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> de la distribution (rang fr&eacute;quence). Il a attir&eacute; l&#39;attention des chercheurs. Il ne faut pas oublier que <em>Zipf</em> a propos&eacute; initialement dans son ouvrage la simple&nbsp; relation o&ugrave; <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est absent (c&#39;est &agrave; dire &eacute;gal &agrave; un).</p> <p><img alt="r.f = K quad r=1,2 dots quad" src="https://latex.codecogs.com/gif.latex?r.f%20%3D%20K%20%5Cquad%20r%3D1%2C2%20%5Cdots%20%5Cquad" /></p> <p>o&ugrave;&nbsp; <img alt="K" src="https://latex.codecogs.com/gif.latex?K" />&nbsp; est une constante</p> <p><br /> &nbsp;On sait que sa valeur varie peu dans les exp&eacute;rimentations, elle est rarement inf&eacute;rieure &agrave; <img alt="0,9" src="https://latex.codecogs.com/gif.latex?0%2C9" /> ou sup&eacute;rieur &agrave; <img alt="1,3" src="https://latex.codecogs.com/gif.latex?1%2C3" />. Statistiquement, elle caract&eacute;rise la vari&eacute;t&eacute; du vocabulaire dans l&rsquo;utilisation des mots. $eta$ grand signifie une utilisation de mots fortement concentr&eacute;es sur les mots fr&eacute;quents,&nbsp;<img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> petit signifie une r&eacute;partition plus large.</p> <p>Il est souvent consid&eacute;r&eacute; comme une constante. Nous ne rencontrons pas en sciences humaines et sociales des constantes universelles qui sont par essence des caract&eacute;ristiques d&rsquo;autres sciences comme la physique.<br /> &nbsp;<br /> &nbsp;Les formules propos&eacute;es&nbsp;&nbsp; pour calculer <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> sont d&eacute;montr&eacute;es et concluent en quelque-sorte ces mod&egrave;les math&eacute;matiques, rappelons les 3 formules:</p> <ul> <li>mod&egrave;le Communicationnel <img alt="eta =displaystyle {frac{Ht}{Ef}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D%5Cdisplaystyle%20%7B%5Cfrac%7BHt%7D%7BEf%7D%7D" /> <img alt="Ht" src="https://latex.codecogs.com/gif.latex?Ht" /> est l&#39;entropie, <img alt="Ef" src="https://latex.codecogs.com/gif.latex?Ef" /> la quantit&eacute; d&#39;effort.&nbsp; <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors per&ccedil;u comme un param&egrave;tre communicationnel quantifiant le co&ucirc;t de production d&#39;un texte.</li> <li>mod&egrave;le Stochastique <img alt="eta =1 -displaystyle {frac{V}{T}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D1%20-%5Cdisplaystyle%20%7B%5Cfrac%7BV%7D%7BT%7D%7D" />&nbsp;&nbsp; <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est la taille du lexique, <img alt="T" src="https://latex.codecogs.com/gif.latex?T" /> le nombre total de mots. <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors per&ccedil;u comme un nouveau param&egrave;tre lexicom&eacute;trique caract&eacute;risant un texte.&nbsp; Il est n&eacute;cessairement inf&eacute;rieur &agrave; 1 .&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;</li> <li>mod&egrave;le Graphom&eacute;trique <img alt="eta =- displaystyle{frac{log( u)}{M}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D-%20%5Cdisplaystyle%7B%5Cfrac%7Blog%28%5Cnu%29%7D%7BM%7D%7D" />&nbsp; <img alt="M" src="https://latex.codecogs.com/gif.latex?M" />est le nombre de lettres, <img alt=" u" src="https://latex.codecogs.com/gif.latex?%5Cnu" /> la probabilit&eacute; d&#39;occurrence d&#39;une lettre.&nbsp;<img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors per&ccedil;u comme un param&egrave;tre graphom&eacute;trique de l&#39;&eacute;criture d&#39;un texte. Il est n&eacute;cessairement sup&eacute;rieur &agrave; 1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;</li> </ul> <p><br /> &nbsp;<br /> Les modes de calcul sont &eacute;trangers l&#39;un &agrave; l&#39;autre et sont totalement ind&eacute;pendants de l&#39;exp&eacute;rimentation.<br /> Il est tentant de dire que les variations de <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> autour de 1 sont des ph&eacute;nom&egrave;nes qui ne rel&egrave;vent pas de la loi mais des conditions de l&#39;exp&eacute;rimentation. Ce param&egrave;tre va induire chez les chercheurs diff&eacute;rentes questions. Peut-on caract&eacute;riser&nbsp; le genre d&#39;un texte par ce param&egrave;tre ? La valeur de <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est-elle une caract&eacute;ristique de la langue, du style&nbsp; du texte?&nbsp; Toutes ces questions vont susciter de nombreuses &eacute;tudes et pol&eacute;miques. En effet dans le cas du mod&egrave;le stochastique (ou du moins dans sa forme originel ) <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est n&eacute;cessairement inf&eacute;rieur &agrave; 1, ce qui n&#39;est pas le cas du mod&egrave;le communicationnel. Cela va &ecirc;tre le d&eacute;clencheur comme on va le voir d&#39;une controverse passionn&eacute;e.</p> <p>&nbsp;</p> <p>&nbsp;</p> <p>&nbsp;</p>