<h2><br />
Loi de Zipf et les principaux modèles Zipfiens</h2>
<h3>L'origine de la loi de Zipf</h3>
<p>La loi de Zipf énoncée en 1949 [cite{zipf1949}] sur les régularités statistiques de la langue, est une loi surprenante à plus d’un titre. Elle véhicule de nombreuses origines tout en alimentant plusieurs controverses. Résiliente dans le temps, elle s’applique à divers champs disciplinaires en présentant par essence un aspect pluridisciplinaire [cite{bertin2020}]. Modélisation mathématique partant d’une énonciation du principe du moindre effort pour certains, observations d’ingénieur [cite{condon1928}] pour d’autres, elle est interrogée sur son sens, sa nature en tant que loi, ainsi que sur la portée de son universalité.</p>
<p>A l'origine l'énoncé mathématique de cette loi met en exergue les régularités statistiques des mots dans un texte. Si les mots du texte sont classés par rang (noté <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />) de fréquence décroissante, la relation suivante est vérifiée :</p>
<p><img alt="egin{equation} p_{r}= frac {K} {r^{eta}} quad r =1 dots V quad eta > 0 end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p_%7Br%7D%3D%20%5Cfrac%20%7BK%7D%20%7Br%5E%7B%5Cbeta%7D%7D%20%5Cquad%20r%20%3D1%20%5Cdots%20V%20%5Cquad%20%5Cbeta%20%3E%200%20%5Cend%7Bequation%7D" /></p>
<p>label{loizipf}</p>
<p><br />
<img alt="p_{r}" src="https://latex.codecogs.com/gif.latex?p_%7Br%7D" /> est la probabilité d'occurence du mot de rang <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />, l'exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est voisin de 1, <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est égal à la taille du lexique, et <img alt="K" src="https://latex.codecogs.com/gif.latex?K" /> est une constante de normalisation.<br />
</p>
<p>La validation de la loi s’inscrit alors dans une démarche classique des statistiques en Sciences Humaines et Sociales [cite{bressoux2010}] qui consiste chaque fois que les données s’y prêtent à construire, puis ajuster une distribution empirique par une distribution théorique encore appelée loi de probabilité qui permet d’ajuster un phénomène observable et intemporel.<br />
De très nombreuses expérimentations ont été menées sur des textes de types variés, de différents genres (roman, essai, théâtre…) de différents auteurs (textes écrits), ou locuteurs (textes énoncés), dans de nombreuses langues.</p>
<p> </p>
<h3>Les modèles explicatifs historiques</h3>
<p>Les trois modèles explicatifs historiques de la loi de extit{Zipf} sont présentés chronologiquement:</p>
<ol>
<li>le modèle communicationnel (1952),</li>
<li>le modèle stochastique (1955),</li>
<li>le modèle graphométrique (1957).</li>
</ol>
<p>Les modèles graphométriques et communicationnels ont pour seul objectif d'expliquer cette loi.<br />
Le modèle stochastique est plus général. Les trois sont des modéles mathématiques. Nous mettons dans ce paragraphe l'accent sur les concepts sous jacents en formulant à minima le développant mathématique nécessaire pour mieux les appréhender.</p>
<h4>Modèle communicationnel</h4>
<p>En 1952 dans sa thèse de doctorat [cite{mandelbrot1952}], extit{Mandelbrot}footnote{Benoît Mandelbrot(1924-2010) est un mathématicien connu pour avoir défini une nouvelle classe d'objet que sont les fractales.} précise sa position épistémologique sur la langue en s’inscrivant dans la continuité des travaux du linguiste suisse extit{Ferdinand De Saussure}. Il souhaite alors élargir sa théorie. Il considère la langue comme une séquence aléatoire d’entités concrètes, et propose une estimation des probabilités de celles-ci.</p>
<p><br />
Il préconise une simplification extrême de la langue, nécessaire selon lui, pour utiliser en linguistique des notions mathématiques. Il postule que les nombreuses études faites par extit{Zipf} sur les distributions confirment quantitativement l’hypothèse de extit{De Saussure} sur la langue: elle peut être perçue comme une construction d’une suite de mots. Néanmoins il pense que extit{De Saussure} va trop loin dans sa construction et néglige l’adaptation du message à son support lors de sa transmission.\<br />
Les travaux de extit{Zipf} sur l'origine de la loi stipule qu'il existe un compromis entre les efforts du locuteur et celui de l'auditeur lors d'un processus de communication. Cette hypothèse est souvent formulée avec le principe du moindre effort qui historiquement [cite{chang2016}] est liée à cette loi. </p>
<p><br />
extit{Mandelbrot} le premier en 1953 [cite{mandelbrot1953}] traduit mathématiquement cette hypothèse en s'appuyant sur la théorie de l'information de extit{Shannon}.<br />
L’idée qui préside à ce modèle est que les mots de faible longueur sont plus fréquents, idée émise déjà par extit{Zipf}, car ils nécessitent moins d’effort pour le locuteur. Il traduit cette hypothèse en minimisant $C$ le coût moyen, soit la quantité moyenne d'effort par unité d’information :</p>
<p><br />
<img alt="egin{equation} C =frac{Ef}{Ht} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20C%20%3D%5Cfrac%7BEf%7D%7BHt%7D%20%5Cend%7Bequation%7D" /></p>
<p>label{cout}</p>
<p><br />
où <img alt="Ef" src="https://latex.codecogs.com/gif.latex?Ef" /> est la quantité d’effort nécessaire pour coder/décoder, c’est à dire communiquer, et <img alt="Ht" src="https://latex.codecogs.com/gif.latex?Ht" /> l’entropie de la distribution des fréquences des mots du texte c’est à dire la quantité d’information du message. Si <img alt="p_{r}" src="https://latex.codecogs.com/gif.latex?p_%7Br%7D" /> désigne la probabilité d’un mot de rang <img alt="r" src="https://latex.codecogs.com/gif.latex?r" />, il définit ces deux quantités par les équations:<br />
<img alt="egin{equation} Ht= sum _{r=1}^{r=V} p_{r}. log ( p_{r}) end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20Ht%3D%20%5Csum%20_%7Br%3D1%7D%5E%7Br%3DV%7D%20p_%7Br%7D.%20%5Clog%20%28%20p_%7Br%7D%29%20%5Cend%7Bequation%7D" /></p>
<p>label{entropie}</p>
<p><img alt="egin{equation} Ef= sum _{r=1}^{r=V} p_{r}. log_{M} (r) end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20Ef%3D%20%5Csum%20_%7Br%3D1%7D%5E%7Br%3DV%7D%20p_%7Br%7D.%20%5Clog_%7BM%7D%20%28r%29%20%5Cend%7Bequation%7D" /></p>
<p>label{effort}</p>
<p><br />
où <img alt="log_{M}" src="https://latex.codecogs.com/gif.latex?%5Clog_%7BM%7D" /> est le logarithme de base <img alt="M" src="https://latex.codecogs.com/gif.latex?M" />. <img alt="M" src="https://latex.codecogs.com/gif.latex?M" /> est le nombre de caractères hormis les séparateurs. Son hypothèse le conduit à calculer footnote{On trouvera dans (cite[p 234]{mitzemacher2012}) une démonstration mathématique très claire de ce résultat.} l'exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> de la loi (Voir (
ef{loizipf})) :</p>
<p><img alt="egin{equation} eta =frac{Ht} {Ef} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D%5Cfrac%7BHt%7D%20%7BEf%7D%20%5Cend%7Bequation%7D" /></p>
<p>label{beta}</p>
<h4>Modèle Stochastique</h4>
<p><br />
En 1955 extit{Simon}footnote{Herbert Alexander Simon (1916-2001) est économiste et a reçu le prix nobel d'économie en 1978.} [cite{simon1955}] publie un article sur une classe singulière de distributions statistiques dans des domaines variés : linguistique, scientométrie, géographie, économie, biologie. Ces distributions ont une forme caractéristique de J renversé avec une longue traîne. Il cite cinq exemples célèbres :</p>
<ul>
<li>distributions des mots dans les textes,</li>
<li>distributions des articles des chercheurs, appelée [cite{lotka1926}] loi de extit{Lotka} en scientométrie,</li>
<li>distributions des habitants dans les villes en géographie, observées [cite{auerbach1913}] dès 1913 par extit{Auerbach},</li>
<li>distributions du montant des salaires en économie, appelée loi [cite{pareto1895}] de extit{Pareto} en économie,</li>
<li>distributions des gènes [cite{good1953}] dans les espèces en biologie.</li>
</ul>
<p><br />
Elles sont dans des domaines différents, et n’ont pas de point commun, hormis leurs caractéristiques statistiques. Il fait l’hypothèse que ces distributions empiriques ont pour densité une fonction puissance inverse :<br />
<br />
<img alt="egin{equation} p_{f} = frac{H} {f^{alpha}} quad f=1,2 dots quad alpha >1 end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p_%7Bf%7D%20%3D%20%5Cfrac%7BH%7D%20%7Bf%5E%7B%5Calpha%7D%7D%20%5Cquad%20f%3D1%2C2%20%5Cdots%20%5Cquad%20%5Calpha%20%3E1%20%5Cend%7Bequation%7D" /></p>
<p>label{simon}</p>
<p><br />
où pour la distribution des mots, <img alt="p_{f}" src="https://latex.codecogs.com/gif.latex?p_%7Bf%7D" /> est la probabilité d'occurrence d'un mot de fréquence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />.<br />
La formule mathématique de la loi de extit{Zipf} (Voir
ef{loizipf}) inscrit celle-ci dans cette classe de distributions. Néanmoins si les formules (
ef{loizipf}) et (
ef{simon}) sont toutes les deux des puissances inverses leur écriture sont différentes, elles sont équivalentes uniquement pour les fréquences élevées. Dans ce cas on a la relation:</p>
<p><img alt="egin{equation} eta approx frac{1}{alpha -1} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%5Capprox%20%5Cfrac%7B1%7D%7B%5Calpha%20-1%7D%20%5Cend%7Bequation%7D" /></p>
<p>label{zipflotka}</p>
<p><br />
extit{Simon} construit un modèle générique pour expliquer ce type de distribution :<br />
il choisit la distribution des mots, un exemple comme un autre selon lui. La langue n'a pas de caractère spécifique. C'est une construction sociale comme une autre.<br />
Il s'inspire des travaux du statisticien extit{Yule} [cite{yule1924}] précurseur de la théorie des processus stochastiques. Il utilise une variante de la théorie de l'évolution enquote{so called birth or birth and death}. Il considère le texte comme une succession de mots produits au cours du temps, les uns après les autres. Il fait deux hypothèses:</p>
<p> </p>
<ul>
<li>la première concerne la réutilisation d’un mot. Après avoir produit <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> mots, il suppose que la probabilité que le (k+1)<sup>ème</sup> mot produit ait une fréquence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />, soit proportionnelle au nombre total d’occurrences des <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> mots précédents de fréquence <img alt="f" src="https://latex.codecogs.com/gif.latex?f" />. </li>
<li>la deuxième hypothèse stipule qu’il existe une probabilité constante que le (k+1)<sup>ème</sup> mot soit nouveau, c’est à dire non apparu dans les <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> premiers.</li>
</ul>
<p> </p>
<p>Ces deux hypothèses décrivent un processus où la probabilité qu’un mot apparaisse dans le texte dépend des mots qui sont antérieurement présents. extit{Simon} va alors calculer footnote{Nous avons simplifié sa démarche nous renvoyons le lecteur à cite [ p 427-431]{simon1960}} le paramètre $alpha$ et donc $eta$:</p>
<p><img alt="egin{equation} eta =1-frac{V}{T} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D1-%5Cfrac%7BV%7D%7BT%7D%20%5Cend%7Bequation%7D" /></p>
<p>label{betasimon}</p>
<p><br />
où <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est la taille du lexique et <img alt="T" src="https://latex.codecogs.com/gif.latex?T" /> le nombre total de mots du texte.</p>
<p> </p>
<h4>Modèle graphométrique</h4>
<p><br />
L’argument d’optimisation de extit{Mandelbrot} pour expliquer la loi de <em>Zipf</em> a été très vite contesté. Le simple fait de trouver un mécanisme convaincant pour expliquer une loi ne signifie pas qu’il n’y ait pas d’autres modèles explicatifs. En d’autres termes s’agit-il d’une loi statistique très générale, en rien spécifique au langage naturel ?</p>
<p><br />
Dès 1957 <em>Miller</em> soulève la question. Il imagine [cite{miller1957}] un singe tapant au hasard sur une machine à écrire comportant <img alt="M" src="https://latex.codecogs.com/gif.latex?M" /> touches.<br />
Il suppose que toutes les touches du clavier, hormis la touche chariot, ont la même chance d’être tapées au hasard.<br />
Il note <img alt="
u" src="https://latex.codecogs.com/gif.latex?%5Cnu" /> cette probabilité on a : <img alt="
u < displaystyle frac{1}{M}" src="https://latex.codecogs.com/gif.latex?%5Cnu%20%3C%20%5Cdisplaystyle%20%5Cfrac%7B1%7D%7BM%7D" />.<br />
La probabilité d’écrire un mot de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> est alors une loi géométrique :<br />
<img alt="egin{equation} P(L) = (1-M.
u) (M.
u)^{L} quad L=0,1,2 dots end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20P%28L%29%20%3D%20%281-M.%5Cnu%29%20%28M.%5Cnu%29%5E%7BL%7D%20%5Cquad%20L%3D0%2C1%2C2%20%5Cdots%20%5Cend%7Bequation%7D" /></p>
<p>label{longueur}</p>
<p><br />
Un texte est la juxtaposition de caractères occupants chacun le même espace.<br />
C’est une suite de mots de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> variable, séparés par un caractère spécifique.<br />
Supposons que les mots soient classés par rang de fréquences décroissantes comme le fait extit{Zipf}.<br />
Si $L=2$ le rang $r$ d’un tel mot vérifie alors l’inégalité:<br />
<img alt="M<r<M+M^2." src="https://latex.codecogs.com/gif.latex?M%3Cr%3CM&plus;M%5E2." /><br />
Plus généralement si <img alt="r(L)" src="https://latex.codecogs.com/gif.latex?r%28L%29" /> désigne le rang d’un mot de longueur <img alt="L" src="https://latex.codecogs.com/gif.latex?L" /> on a l’inégalité :<br />
<img alt="egin{equation} M+M^{2} dots M^{L-1}<r(L)<M+M^2 + dots M{^L} . end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20M&plus;M%5E%7B2%7D%20%5Cdots%20M%5E%7BL-1%7D%3Cr%28L%29%3CM&plus;M%5E2%20&plus;%20%5Cdots%20M%7B%5EL%7D%20.%20%5Cend%7Bequation%7D" /></p>
<p>label{exponentiel}</p>
<p>Soit un mot quelconque <img alt="w" src="https://latex.codecogs.com/gif.latex?w" /> de rang <img alt="r(w)" src="https://latex.codecogs.com/gif.latex?r%28w%29" />, extit{Miller}] [cite{miller1957}] déduit (Une démonstration du même résultat, dite des deux exponentielles, est faite en utilisant le mode continu dans [cite[p 13]{newman2005}]) des relations (
ef{longueur}) et (
ef{exponentiel}) le résultat:</p>
<p><img alt="egin{equation} p(w)= frac{k}{(b +r(w))^{eta} } end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20p%28w%29%3D%20%5Cfrac%7Bk%7D%7B%28b%20&plus;r%28w%29%29%5E%7B%5Cbeta%7D%20%7D%20%5Cend%7Bequation%7D" /></p>
<p>label{mandelbrotzipf}</p>
<p>où <img alt="k" src="https://latex.codecogs.com/gif.latex?k" /> et <img alt="b" src="https://latex.codecogs.com/gif.latex?b" /> sont des constantes, et l’exposant est :<br />
<img alt="egin{equation} eta =-frac{log(
u)}{log(M)} end{equation}" src="https://latex.codecogs.com/gif.latex?%5Cbegin%7Bequation%7D%20%5Cbeta%20%3D-%5Cfrac%7B%5Clog%28%5Cnu%29%7D%7B%5Clog%28M%29%7D%20%5Cend%7Bequation%7D" /></p>
<p>label{miller}<br />
On remarquera que la formule (
ef{mandelbrotzipf}) est différente de l'énoncé (
ef{loizipf}) puisque l'on a fait une translation de <img alt="b" src="https://latex.codecogs.com/gif.latex?b" /> sur le rang. En fait la loi de <em>Zipf</em> est énoncée sous cette forme par extit{Mandelbrot} dès 1952.<br />
On aura compris que dans ce modèle c’est la combinaison de la graphie qui est en jeu et non directement la langue.</p>
<p> </p>
<p> </p>
<h3><br />
Le paramètre <strong><img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /></strong></h3>
<p> Cette loi singulière est caractérisée par un seul paramètre, l’exposant <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> de la distribution (rang fréquence). Il a attiré l'attention des chercheurs. Il ne faut pas oublier que <em>Zipf</em> a proposé initialement dans son ouvrage la simple relation où <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est absent (c'est à dire égal à un).</p>
<p><img alt="r.f = K quad r=1,2 dots quad" src="https://latex.codecogs.com/gif.latex?r.f%20%3D%20K%20%5Cquad%20r%3D1%2C2%20%5Cdots%20%5Cquad" /></p>
<p>où <img alt="K" src="https://latex.codecogs.com/gif.latex?K" /> est une constante</p>
<p><br />
On sait que sa valeur varie peu dans les expérimentations, elle est rarement inférieure à <img alt="0,9" src="https://latex.codecogs.com/gif.latex?0%2C9" /> ou supérieur à <img alt="1,3" src="https://latex.codecogs.com/gif.latex?1%2C3" />. Statistiquement, elle caractérise la variété du vocabulaire dans l’utilisation des mots. $eta$ grand signifie une utilisation de mots fortement concentrées sur les mots fréquents, <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> petit signifie une répartition plus large.</p>
<p>Il est souvent considéré comme une constante. Nous ne rencontrons pas en sciences humaines et sociales des constantes universelles qui sont par essence des caractéristiques d’autres sciences comme la physique.<br />
<br />
Les formules proposées pour calculer <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> sont démontrées et concluent en quelque-sorte ces modèles mathématiques, rappelons les 3 formules:</p>
<ul>
<li>modèle Communicationnel <img alt="eta =displaystyle {frac{Ht}{Ef}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D%5Cdisplaystyle%20%7B%5Cfrac%7BHt%7D%7BEf%7D%7D" /> <img alt="Ht" src="https://latex.codecogs.com/gif.latex?Ht" /> est l'entropie, <img alt="Ef" src="https://latex.codecogs.com/gif.latex?Ef" /> la quantité d'effort. <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors perçu comme un paramètre communicationnel quantifiant le coût de production d'un texte.</li>
<li>modèle Stochastique <img alt="eta =1 -displaystyle {frac{V}{T}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D1%20-%5Cdisplaystyle%20%7B%5Cfrac%7BV%7D%7BT%7D%7D" /> <img alt="V" src="https://latex.codecogs.com/gif.latex?V" /> est la taille du lexique, <img alt="T" src="https://latex.codecogs.com/gif.latex?T" /> le nombre total de mots. <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors perçu comme un nouveau paramètre lexicométrique caractérisant un texte. Il est nécessairement inférieur à 1 . </li>
<li>modèle Graphométrique <img alt="eta =- displaystyle{frac{log(
u)}{M}}" src="https://latex.codecogs.com/gif.latex?%5Cbeta%20%3D-%20%5Cdisplaystyle%7B%5Cfrac%7Blog%28%5Cnu%29%7D%7BM%7D%7D" /> <img alt="M" src="https://latex.codecogs.com/gif.latex?M" />est le nombre de lettres, <img alt="
u" src="https://latex.codecogs.com/gif.latex?%5Cnu" /> la probabilité d'occurrence d'une lettre. <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est alors perçu comme un paramètre graphométrique de l'écriture d'un texte. Il est nécessairement supérieur à 1 </li>
</ul>
<p><br />
<br />
Les modes de calcul sont étrangers l'un à l'autre et sont totalement indépendants de l'expérimentation.<br />
Il est tentant de dire que les variations de <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> autour de 1 sont des phénomènes qui ne relèvent pas de la loi mais des conditions de l'expérimentation. Ce paramètre va induire chez les chercheurs différentes questions. Peut-on caractériser le genre d'un texte par ce paramètre ? La valeur de <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est-elle une caractéristique de la langue, du style du texte? Toutes ces questions vont susciter de nombreuses études et polémiques. En effet dans le cas du modèle stochastique (ou du moins dans sa forme originel ) <img alt="eta" src="https://latex.codecogs.com/gif.latex?%5Cbeta" /> est nécessairement inférieur à 1, ce qui n'est pas le cas du modèle communicationnel. Cela va être le déclencheur comme on va le voir d'une controverse passionnée.</p>
<p> </p>
<p> </p>
<p> </p>