<p>Dans cet article, le but est de proposer un &eacute;tat de l&rsquo;art de la variation en sciences du langage dans la perspective du TAL.</p> <p>Si la d&eacute;finition de ce qu&rsquo;est la norme pose d&eacute;j&agrave; nombre de probl&egrave;mes en linguistique (Siouffi &amp; Steuckardt, 2007), dans le domaine du TAL, le d&eacute;fi d&rsquo;&eacute;tablir un contour pr&eacute;cis de norme et &ndash; par la suite &ndash; de ce qui est &agrave; consid&eacute;rer comme variation autour de ladite norme assume des formes diff&eacute;rentes qui s&rsquo;expriment sur d&rsquo;autres niveaux d&rsquo;analyse.</p> <p>Dans cet article il n&rsquo;est pas sujet de retracer l&rsquo;histoire des d&eacute;finitions du concept de &laquo;&nbsp;norme&nbsp;&raquo; en linguistique, toutefois il est pertinent de noter comment les d&eacute;bats autour de la norme (ainsi qu&rsquo;autour de ses variations) pivotent souvent autour du noyau &eacute;pist&eacute;mologique qui suit&nbsp;:</p> <p>&laquo;&nbsp;Devra-t-on d&eacute;crire la langue &agrave; partir de faits linguistiques observables, c&#39;est-&agrave;-dire les performances diverses et vari&eacute;es auxquelles on est expos&eacute;s dans la vie quotidienne ou bien penser la langue &agrave; partir de comp&eacute;tences id&eacute;alis&eacute;es ?&nbsp;&raquo; (Barge, 2009)</p> <p>Que l&rsquo;on veuille rendre compte des diversit&eacute;s dialectales, diachroniques, sociolinguistiques ou pas ; que l&rsquo;on milite en faveur d&rsquo;un usage prescriptif et &eacute;valuatif de la langue ou bien que l&rsquo;on accepte tout type de variation linguistique - pourvu qu&rsquo;elle puisse toujours garantir la transmission du sens ainsi que sa compr&eacute;hension mutuelle sans d&eacute;faillance - la richesse de la langue fran&ccedil;aise pose d&eacute;j&agrave; une quantit&eacute; de &laquo;&nbsp;variations norm&eacute;es&nbsp;&raquo; non n&eacute;gligeables. Par cette expression l&rsquo;auteur de cet article voudrait d&eacute;finir tout ph&eacute;nom&egrave;ne linguistique qui &ndash; &agrave; l&rsquo;oral comme dans sa forme &eacute;crite &ndash; ne suit pas la r&egrave;gle, c&rsquo;est-&agrave;-dire ce qui est usuellement pr&eacute;vu pour le m&ecirc;me &eacute;l&eacute;ment dans le m&ecirc;me contexte.</p> <p>Parmi ces &laquo;&nbsp;variations norm&eacute;es&nbsp;&raquo; &agrave; l&rsquo;oral on trouve entre autres le hiatus, les diff&eacute;rentes formes de liaisons, les verbes irr&eacute;guliers. Alors qu&rsquo;&agrave; l&rsquo;&eacute;crit ces variations se multiplient&nbsp;: l&rsquo;orthographe du fran&ccedil;ais &eacute;tant opaque, le nombre d&rsquo;homographes/homophones ou bien d&rsquo;homophones non homographes (ou bien encore son inverse) ne sont que la pointe de l&rsquo;iceberg d&rsquo;une multitude de &laquo;&nbsp;variations norm&eacute;es&nbsp;&raquo;.</p> <p>Mais alors, qu&rsquo;est-ce qu&rsquo;est la norme&nbsp;?&nbsp; Est-ce qu&rsquo;il s&rsquo;agit exclusivement d&rsquo;un usage non conforme qui diff&egrave;re en fonction du dialecte, du temps, de la classe sociale ou de l&rsquo;ethnie&nbsp;? Ou peut-on consid&eacute;rer la variation comme toute d&eacute;viation d&rsquo;un ensemble de crit&egrave;res logiques sur lesquels une langue naturelle devrait se baser&nbsp;?</p> <p>Effectivement, si l&rsquo;on adopte la d&eacute;finition suivante de norme &laquo; Tout ce qui est d&#39;usage commun et courant dans une communaut&eacute; linguistique ; la norme correspond alors &agrave; l&#39;institution sociale que constitue la langue&nbsp;&raquo; (Dubois et al., 1973, p 342),&nbsp;on pourrait r&eacute;pondre &agrave; la premi&egrave;re question pos&eacute;e dans le paragraphe ci-dessus.</p> <p>La r&eacute;ponse &agrave; la deuxi&egrave;me question est bien plus difficile, et le seul fait de formuler cette question ouvre d&eacute;j&agrave; la voie &agrave; plusieurs niveaux d&rsquo;analyse. Tout d&rsquo;abord, l&rsquo;orthographe du fran&ccedil;ais ne suit pas une logique (Hoedt &amp; Piron, 2016)&nbsp;: par exemple, si l&rsquo;on prend un nouveau mot qui n&rsquo;existe pas mais qui respecte les r&egrave;gles phonotactiques du fran&ccedil;ais, i.e le mot / kʁefisjɔ̃ / (Hoedt &amp; Piron, 2016), comment pourrait-on le transcrire de mani&egrave;re &agrave; respecter les normes de l&rsquo;orthographe du fran&ccedil;ais&nbsp;?</p> <p>&laquo;&nbsp;Krefision&nbsp;&raquo; ou &laquo;&nbsp; krefisiont&nbsp;&raquo;&nbsp;? Certes, mais aussi &laquo;&nbsp;crephission&nbsp;&raquo; ou bien &laquo;&nbsp;crefition&nbsp;&raquo; ou &laquo;&nbsp;chraisfiscion&nbsp;&raquo; devraient &ecirc;tre consid&eacute;r&eacute;s comme des candidats conformes.</p> <p>Toutes ces formes sont possibles selon l&rsquo;orthographe du fran&ccedil;ais, aucune ne pourrait &ecirc;tre jug&eacute;e comme &eacute;tant hors-norme ou atypique. <a name="_Hlk120872744">Un algorithme programm&eacute; pour cette finalit&eacute; &ndash; gr&acirc;ce &agrave; un calcul combinatoire qui prend en&nbsp;compte toutes les lettres et/ou syllabes homophones non homographes &ndash; a produit comme output le nombre total de transcriptions possible du mot invent&eacute; </a>/ kʁefisjɔ̃ /&nbsp;: elles sont 240&nbsp;(Hoedt &amp; Piron, 2016). Il est clair qu&rsquo;il est difficile parler de norme et de variation quand la norme orthographique ne d&eacute;rive &ndash; au moins dans un bon nombre de cas &ndash; que d&rsquo;une association majoritairement arbitraire reliant un phon&egrave;me &agrave; son/ses graph&egrave;me(s) correspondant(s).</p> <p>Les auteurs de cet ouvrage se demandent pourquoi &laquo;&nbsp;l&rsquo;esprit critique s&rsquo;arr&ecirc;te aux seuils de l&rsquo;orthographe&nbsp;&raquo; (Hoedt &amp; Piron, 2016). Le manque d&rsquo;univocit&eacute; dans la relation entre graph&egrave;me et phon&egrave;me donne &agrave; l&rsquo;orthographe du fran&ccedil;ais un caract&egrave;re particulier, qui est commun &agrave; d&rsquo;autres langues (par exemple l&rsquo;anglais ou l&rsquo;allemand). Les langues qui ont une orthographe totalement claire sont relativement peu, comme l&rsquo;espagnol ou le turc par exemple (&agrave; noter que l&rsquo;alphabet latin &agrave; &eacute;t&eacute; introduit dans le XX&egrave;me si&egrave;cle en Turquie, et qu&#39;il&nbsp;a fait l&rsquo;objet d&rsquo;une adaptation de haut en bas&nbsp;: l&rsquo;usage s&rsquo;est d&eacute;fini une fois que la norme avait &eacute;t&eacute; d&eacute;j&agrave; &eacute;tablie par la nouvelle forme &eacute;tatique).</p> <p>Apr&egrave;s cette petite digression, il faut noter que pour l&rsquo;ordinateur les variations sont toujours les m&ecirc;mes puisqu&rsquo;elles posent constamment le m&ecirc;me probl&egrave;me&nbsp;: l&rsquo;ambig&uuml;it&eacute; (Kraif &amp; Ponton, 2007&nbsp;; Jusoh, 2018).</p> <p>Tout ce qui sort du cadre d&rsquo;une logique d&eacute;terminable et pr&eacute;visible devient difficile pour un ordinateur&nbsp;: calculer le rapport entre &quot;type&quot;/&quot;token&quot; (nombre de mots diff&eacute;rents divis&eacute; par nombre de mots total) de l&rsquo;int&eacute;gralit&eacute; de l&rsquo;Encyclop&eacute;die de Diderot et d&rsquo;Alembert est une t&acirc;che simple, alors que mettre sur le m&ecirc;me niveau ces deux expressions &laquo;&nbsp;je ne peux pas&nbsp;&raquo;, &laquo;&nbsp;je peux pas&nbsp;&raquo; devient plus compliqu&eacute;. Le pourquoi - on le sait bien &ndash; se trouve dans la d&eacute;ductibilit&eacute; des r&egrave;gles &agrave; appliquer et les exceptions &agrave; accorder &agrave; ces r&egrave;gles&nbsp;en fonction du contexte : si on a appris &agrave; un programme &agrave; reconna&icirc;tre la n&eacute;gation avec cette structure (sujet + ne + verbe + pas), il sera compliqu&eacute; de lui faire d&eacute;tecter la m&ecirc;me entit&eacute; dans un contexte o&ugrave; un &eacute;l&eacute;ment manque. Il sera encore plus difficile de le rendre capable de reconna&icirc;tre que dans certains contextes sociaux la premi&egrave;re forme est obligatoire alors que dans d&rsquo;autres contextes sociaux les deux formes sont acceptables. Une chaine de caract&egrave;re ne donnant pas d&rsquo;information sur les locuteurs, il est difficile que la machine puisse mettre en contexte et faire des inf&eacute;rences pragmatiques.</p> <p>Ces probl&egrave;mes de multiplicit&eacute; de transcriptions, d&rsquo;alignement, de d&eacute;sambigu&iuml;sation en fonction du contexte sont pr&eacute;sents dans toutes les branches de la linguistique qui utilisent le TAL pour automatiser des t&acirc;ches r&eacute;p&eacute;titives, pour v&eacute;rifier des hypoth&egrave;ses ou bien pour proposer des repr&eacute;sentations des grandes bases de donn&eacute;es.</p> <p>Dans les deux parties de cet article, deux &eacute;tudes de cas seront propos&eacute;es&nbsp;: la premi&egrave;re porte sur un calcul de fr&eacute;quence d&rsquo;occurrences de mots et montrera comment la variation lexicale de l&rsquo;enfant a &eacute;t&eacute; mod&eacute;lis&eacute;e pour faciliter l&rsquo;automatisation d&rsquo;une t&acirc;che. Dans la deuxi&egrave;me &eacute;tude de cas, plusieurs outils et manipulations seront pr&eacute;sent&eacute;s dans le cadre d&rsquo;un essai visant &agrave; uniformiser le traitement des variations phon&eacute;tiques/phonologiques chez l&rsquo;enfant, dans le but ultime de d&eacute;gager son parcours d&rsquo;acquisition des phon&egrave;mes.</p> <p>Ces exemples montrent que le TAL est devenu un outil incontournable dans le domaine de la linguistique&nbsp;gr&acirc;ce &agrave; sa puissance de calcul et &agrave; sa rapidit&eacute; d&rsquo;ex&eacute;cution. Cependant, son utilisation peut se r&eacute;v&eacute;ler insidieuse puisque la nature intrins&egrave;quement ambig&uuml;e et polys&eacute;mique du langage implique un nombre non n&eacute;gligeable de biais et d&rsquo;exceptions aux r&egrave;gles. Comme il sera d&eacute;taill&eacute; dans les deux parties, le TAL nous am&egrave;ne &agrave; des d&eacute;cisions importantes, souvent dans la forme d&rsquo;un compromis ou d&rsquo;une balance qu&rsquo;il faut &eacute;talonner soigneusement. Par exemple&nbsp;: est-il mieux de privil&eacute;gier l&rsquo;efficience en d&eacute;pit de la pr&eacute;cision, ou bien est-il mieux de choisir de laisser passer un biais dans le codage initial afin d&rsquo;&eacute;viter des probl&egrave;mes de traitement de cat&eacute;gories par la suite, ou &agrave; l&rsquo;inverse est-il mieux de rendre compte de toute variation lors du codage, pour ensuite avoir des cat&eacute;gories ayant des contours flous&nbsp;?</p> <p>&nbsp;</p> <h2>Premi&egrave;re &eacute;tude de cas&nbsp;: estimer l&rsquo;&eacute;volution de la distribution de Zipf chez l&rsquo;enfant</h2> <p>Le corpus CoLaJE (Morgenstern, 2012) est la base de cette &eacute;tude sur l&rsquo;acquisition du fran&ccedil;ais L1. Il est compos&eacute; de sept suivis longitudinaux d&rsquo;enfants qui ont &eacute;t&eacute; enregistr&eacute;s une heure par mois, tous les mois, d&egrave;s l&rsquo;&acirc;ge d&rsquo;un an jusqu&rsquo;&agrave; cinq ans environ. Le corpus respecte les standards de repr&eacute;sentativit&eacute; statistique demand&eacute;s dans ce domaine (Stahl, 2004 ; Yamaguchi, 2018).&nbsp;</p> <p>Pour chaque enfant il y a environ 8000 &eacute;nonc&eacute;s et 20000 mots avec une longueur moyenne d&#39;&eacute;nonc&eacute; (Mean Length of Utterance, Mac Whinney, 2000) de trois mots. Le langage adress&eacute; &agrave; l&#39;enfant a &eacute;galement &eacute;t&eacute; enregistr&eacute; et il est transcrit en utilisant les lignes FAT et MOT. Chaque transcription est soumise &agrave; une relecture par un pair, afin que les interpr&eacute;tations des expressions ambig&uuml;es des enfants soient concord&eacute;es par plusieurs chercheur.ses dans un souci de fiabilit&eacute; et rigueur.</p> <p>&nbsp;</p> <p align="center" style="text-align:center; margin-bottom:11px"><img height="518" src="https://www.numerev.com/img/ck_2808_28_image-20230704163329-1.png" width="1008" /></p> <p style="text-align: center;">Figure 1. Extrait de CoLaJE. ADRIEN-33-4_02_15</p> <p style="text-align: center;">&nbsp;</p> <p>L&rsquo;&eacute;tude en question porte sur le d&eacute;veloppement de la distribution de la fr&eacute;quence des mots chez les enfants du corpus CoLaJE visant &agrave; &eacute;valuer comment leur production lexicale soit li&eacute;e &agrave; une distribution standard de la fr&eacute;quence des mots : la loi de Zipf, qui est pr&eacute;sente dans toutes les langues connues (Zipf, 1949&nbsp;; Piantadosi, 2014). Dans le d&eacute;tail, cette &eacute;tude prend comme exemple des travaux pr&eacute;c&eacute;dents sur l&rsquo;&eacute;volution de cette distribution de fr&eacute;quence de mots qui avaient d&eacute;j&agrave; &eacute;t&eacute; effectu&eacute;s sur plusieurs langues (Baixeries et al., 2013) en l&rsquo;appliquant pour la premi&egrave;re fois sur la langue fran&ccedil;aise (Briglia et al., 2022).</p> <p>La distribution de Zipf est consid&eacute;r&eacute;e comme un &eacute;quilibre d&rsquo;efficience dans la communication humaine&nbsp;(Lestrade, 2017) : une langue doit pouvoir v&eacute;hiculer le sens de mani&egrave;re pr&eacute;cise tout en &eacute;vitant de rendre cette t&acirc;che trop co&ucirc;teuse pour les locuteurs. Le principe du moindre effort (Zipf, 1949) est fait de telle mani&egrave;re que la proportion entre &quot;types&quot; et &quot;tokens&quot; dans une forme de langage donn&eacute;e (orale ou &eacute;crite)&nbsp;suffise pour atteindre le but communicatif&nbsp;: si par exemple un auteur d&rsquo;un article peut s&rsquo;assurer de se faire comprendre en utilisant une gamme de 70 mots diff&eacute;rents, il n&rsquo;y aura aucune raison pour qu&rsquo;il en utilise plus puisque la valeur communicative des mots qui exc&egrave;dent par rapport &agrave; la constante de Zipf ne vaut pas plus que le co&ucirc;t cognitif de les traiter. La constante de la loi de Zipf est consid&eacute;r&eacute;e selon certains auteurs (Lestrade, 2017) comme un compromis implicite entre les locuteurs qui s&rsquo;articule aux niveaux s&eacute;mantique et syntaxique. Cette loi s&rsquo;applique &agrave; l&rsquo;oral tout comme dans le texte, avec des variations n&eacute;gligeables entre les deux formes (Piantadosi, 2014)</p> <p>L&rsquo;int&eacute;r&ecirc;t de v&eacute;rifier comment cette constante se d&eacute;veloppe au cours de l&rsquo;acquisition de la langue maternelle&nbsp;est donc celui de comprendre comment le langage de l&rsquo;enfant en &eacute;volution se rapproche d&rsquo;une norme adulte d&rsquo;efficience dans la communication. Pour prouver cette hypoth&egrave;se, il a fallu op&eacute;rer un choix m&eacute;thodologique commun au sein du TAL. La production langagi&egrave;re des enfants du corpus CoLaJE qui ont &eacute;t&eacute; pris en examen se compose par trois lignes&nbsp;(voir exemple en Figure 1) : &quot;pho&quot;&nbsp;repr&eacute;sente ce que l&rsquo;enfant dit en API (Alphabet Phon&eacute;tique International), &quot;mod&quot; repr&eacute;sente ce que l&rsquo;enfant aurait d&ucirc; prononcer selon la norme adulte en API, et &quot;CHI&quot; repr&eacute;sente ce que l&rsquo;enfant aurait d&ucirc; prononcer selon la norme adulte en orthographe standard. Avant de calculer la distribution de fr&eacute;quence de mots dans un enregistrement, il faut d&rsquo;abord comprendre ce qu&rsquo;un mot est pour un enfant (Vihman &amp; McCune, 1994). Par exemple, pour le mot cible &laquo;&nbsp;comprendre&nbsp;&raquo;, Adrien<a href="#_ftn1" name="_ftnref1" title="">[1]</a> &agrave; l&rsquo;&acirc;ge de 4 ans et 3 mois (4_03_26) prononce les variations suivantes&nbsp;:</p> <p>/ pʁopʁɑ̃d / et / kɔ̃pʁɑ̃d /. &nbsp;</p> <p>Etant donn&eacute; que le contexte est le suivant&nbsp;<je comprendre="" les="" lettres="" moi="" vais="">et que le papa voulait lui faire faire des exercices de lecture de lettres, il est clair que les deux formes vari&eacute;es ci-dessus se r&eacute;f&egrave;rent &agrave; la m&ecirc;me entit&eacute; (e.g. le verbe &laquo; comprendre &raquo;). Il y a de nombreux cas analogues &agrave; celui-ci (par exemple le mot&nbsp;&laquo; tracteur &raquo;&nbsp;ou &laquo; pourquoi &raquo;) qui conduisent &agrave; un choix oblig&eacute;&nbsp;: si l&rsquo;on prend en compte chaque variation phon&eacute;tique/phonologique de l&rsquo;enfant, on ne pourra jamais &eacute;tudier le d&eacute;veloppement de la constante de Zipf dans ce corpus, puisque le fait de consid&eacute;rer toute variation va entra&icirc;ner un nombre d&rsquo;occurrences tr&egrave;s &eacute;lev&eacute; alors que le signifi&eacute; est toujours le m&ecirc;me. En d&rsquo;autres termes, il y aura plusieurs &quot;types&quot; diff&eacute;rents alors qu&rsquo;il n&rsquo;y a &ndash; selon une certaine perspective &ndash; que plusieurs &quot;tokens&quot; diff&eacute;rents qui se r&eacute;f&egrave;rent au m&ecirc;me &quot;type&quot;.</je></p> <p>Comme il a &eacute;t&eacute; remarqu&eacute; par les porteurs du projet CoLaJE&nbsp;: &laquo;&nbsp;Cette distance entre formes et transcriptions se r&eacute;duit &agrave; mesure que l&rsquo;enfant grandit mais ne dispara&icirc;t jamais. On est donc face &agrave; des choix th&eacute;oriques importants dans la mesure o&ugrave; ils induisent les r&eacute;sultats des recherches men&eacute;es sur les transcriptions. De quelle nature doit &ecirc;tre la transcription&nbsp;? Phon&eacute;tique, phonologique, lexicale, orthographique&nbsp;?&nbsp;&raquo; (Morgenstern, 2007, p56)</p> <p>En outre, un mot donn&eacute; peut &ecirc;tre prononc&eacute; de plusieurs mani&egrave;res diff&eacute;rentes avec des degr&eacute;s de variation&nbsp;diff&eacute;rents, ce qui rend les calculs complexes : il est difficile d&#39;&eacute;tablir avec certitude si un enfant donne &agrave; un mot le m&ecirc;me sens qu&rsquo;un adulte lui attribue, par exemple des diff&eacute;rences dues &agrave; des erreurs de sous-extensions ou de sur-extension par les enfants (Thomson &amp; Chapman, 1977) peuvent &ecirc;tre &agrave; l&rsquo;&oelig;uvre sans que l&rsquo;on puisse en &ecirc;tre conscients. Il est difficile d&#39;&eacute;tablir quand un mot signifie ce qu&#39;il &eacute;tait cens&eacute; signifier pour un enfant, et dans quelle mesure diff&eacute;rentes formes vari&eacute;es se r&eacute;f&egrave;rent &agrave; la m&ecirc;me entit&eacute;, notamment au cours des premiers &acirc;ges (Vihman, 1994).</p> <p>Il a donc &eacute;t&eacute; d&eacute;cid&eacute; &ndash; dans le but d&rsquo;homog&eacute;n&eacute;iser le corpus et rendre les comparaisons inter-enfants possibles &ndash; de baser la mod&eacute;lisation TAL sur le signifi&eacute;/r&eacute;f&eacute;rent sans tenir compte des diff&eacute;rentes images acoustiques qui indiquaient ce dernier. Ce choix a impliqu&eacute; l&rsquo;acceptation de biais potentiels li&eacute;s au choix des transcripteurs qui pour les premiers avaient interpr&eacute;t&eacute; la parole de l&rsquo;enfant. Ces biais sont difficiles &agrave; estimer &eacute;tant donn&eacute;e la taille importante du corpus.&nbsp;Au niveau du TAL, il s&rsquo;agit de rassembler un ensemble de variations sous une cat&eacute;gorie unique li&eacute;e au r&eacute;f&eacute;rent. Cela a permis de pouvoir traiter de mani&egrave;re automatique une grande quantit&eacute; de donn&eacute;es issus des enfants de CoLaJE afin de d&eacute;gager l&rsquo;&eacute;volution de la constante de la loi de Zipf au cours du temps (Briglia et al., 2022, p6-7). Il pourrait &ecirc;tre r&eacute;sum&eacute; que le fait de renoncer &agrave; une variation &agrave; un niveau d&rsquo;analyse (celui du mot) a permis de pouvoir analyser le r&ocirc;le de la variation &agrave; un niveau sup&eacute;rieur (celui du lexique), selon une perspective temporelle qui met en relief les diff&eacute;rences inter-enfants relativement &agrave; la variabilit&eacute; intra-enfant.</p> <p>La constante estim&eacute;e est le param&egrave;tre exponentiel de la distribution de la fr&eacute;quence des mots (&quot;alpha&quot;) pour chaque enfant, ainsi que pour le langage des parents. Nous montrons comment les valeurs de &quot;alpha&quot; tendent &agrave; converger vers la valeur de 1 au cours du d&eacute;veloppement, ce qui est coh&eacute;rent avec l&rsquo;&eacute;tat de l&rsquo;art (Baixieries et al., 2013). Le choix entre variation et norme expliqu&eacute; ci-dessus a &eacute;galement permis&nbsp;de rapprocher le langage de l&rsquo;enfant et&nbsp;celui de l&rsquo;adulte, en &eacute;tablissant ainsi les bases pour une comparaison entre l&rsquo;exposant &quot;alpha&quot; du langage des enfants et l&rsquo;exposant &quot;alpha&quot; des adultes&nbsp;: le &quot;rho&quot; de &quot;Spearman&quot; montre une corr&eacute;lation positive (p-value &lt; 0.05) entre l&#39; &quot;alpha&quot; de l&#39;enfant et l&#39; &quot;alpha&quot; des parents au cours de tous les &acirc;ges, qui augmente &agrave; un &acirc;ge plus avanc&eacute; (Briglia et al., 2022, p184). Cela indique clairement que l&rsquo; &quot;input&quot; parental joue un r&ocirc;le de plus en plus important dans la structuration de l&rsquo; &quot;output&quot; de l&rsquo;enfant (Goodman et al., 2008).</p> <p>Les trois graphes ci-dessous montrent la variation de l&rsquo;exposant &quot;alpha&quot; au cours du temps. On pourrait consid&eacute;rer &quot;alpha = 1&quot; comme &eacute;tant la norme puisqu&rsquo;il a &eacute;t&eacute; d&eacute;montr&eacute; que cette valeur pour cet exposant donne le nombre optimal pour d&eacute;crire combien de mots diff&eacute;rents un extrait (&eacute;crit ou oral) d&rsquo;une taille donn&eacute;e a en moyenne &agrave; l&rsquo;issue d&rsquo;un compromis implicite atteint par les locuteurs (Zipf, 1949&nbsp;; Piantadosi, 2014). Si l&rsquo;on compare les trois graphes on peut remarquer que les trois courbes ne sont pas isomorphes, et pourtant elles semblent graviter en dessous ou au-dessus de la valeur 1 au cours du temps (c&rsquo;est-&agrave;-dire au cours du d&eacute;veloppement), ce qui expliquerait une tendance implicite du langage humain &agrave; atteindre l&rsquo;&eacute;quilibre d&eacute;crit par la formule de Zipf (1949).</p> <p style="margin-bottom:11px">&nbsp;</p> <p><img src="https://www.numerev.com/img/ck_2808_28_image-20230704163329-2.png" /></p> <p style="text-align: center;">Figure 2. Evolution de l&rsquo;exposant alpha pour Adrien</p> <p><img src="https://www.numerev.com/img/ck_2808_28_image-20230704163329-3.png" /></p> <p style="text-align: center;">Figure 3. Evolution de l&rsquo;exposant alpha pour Madeleine</p> <p>&nbsp;</p> <p align="center" style="text-align:center; margin-bottom:11px"><img height="554" src="https://www.numerev.com/img/ck_2808_28_image-20230704163329-4.png" width="944" /></p> <p style="text-align: center;">Figure 4. Evolution de l&rsquo;exposant &quot;alpha&quot; pour Julie</p> <p>La variation inter-enfants est &eacute;galement pr&eacute;sente dans le cadre de l&rsquo;acquisition des parties du discours&nbsp;: comme il a &eacute;t&eacute; montr&eacute; dans une &eacute;tude pr&eacute;c&eacute;dente sur le corpus CoLaJE (Mucciardi et al., 2022), Adrien et Madeleine pr&eacute;sentent deux parcours d&rsquo;acquisition des cat&eacute;gories grammaticales &agrave; la fois similaire (dans les proportions entre mots lexicaux et mots fonctionnels au cours des m&ecirc;mes &acirc;ges) et diff&eacute;rent (dans le rythme d&rsquo;acquisition)<a href="#_ftn2" name="_ftnref2" title="">[2]</a>. Le lien en bas de page montre efficacement ce parcours et permet de saisir le degr&eacute; de diff&eacute;rence et ressemblance entre les deux enfants. La mod&eacute;lisation graphique se r&eacute;v&egrave;le donc importante pour mieux appr&eacute;cier la variation chez diff&eacute;rents sujets.</p> <p style="margin-bottom:11px">&nbsp;</p> <h2>Deuxi&egrave;me &eacute;tude de cas&nbsp;: le statut de la norme et de la variation phon&eacute;tique/phonologique</h2> <p>La variation est au c&oelig;ur de l&rsquo;acquisition du langage de&nbsp;l&rsquo;enfant (Hickmann et al., 2018), elle influence toutes les &eacute;tapes de ce processus, tant sur le plan de la perception que sur le plan de la production, ainsi que sur les diff&eacute;rents niveaux d&rsquo;analyse, en allant de la phon&eacute;tique jusqu&rsquo;&agrave; la pragmatique. On pourrait dire que le seul d&eacute;nominateur commun de l&rsquo;acquisition de la langue maternelle est la variation, puisqu&rsquo;elle est pr&eacute;sente tant au niveau inter-individuel qu&rsquo;au niveau intra-individuel. Comme il est soulign&eacute; par Bates&nbsp;: &laquo;&nbsp;il est n&eacute;cessaire de relativiser cette apparente uniformit&eacute; en soulignant la tr&egrave;s grande variabilit&eacute; intra et inter- individuelle qui caract&eacute;rise cette acquisition&nbsp;&raquo; (Bates et al., 1995).</p> <p>L&rsquo;importance de la variation chez les enfants du corpus CoLaJE est bien repr&eacute;sent&eacute;e par les graphes qui montrent l&rsquo;&eacute;volution de plusieurs indices linguistiques propos&eacute;s par les chercheurs qui ont r&eacute;alis&eacute; le corpus CoLaJE (Morgenstern, 2012). Avant d&rsquo;atteindre la ma&icirc;trise de leur langue maternelle et de pouvoir parler comme un adulte, c&rsquo;est-&agrave;-dire avant d&rsquo;&ecirc;tre capable au niveau perceptif et articulatoire de prononcer la forme cible (i.e. la norme sociale) d&rsquo;un mot, les enfants passent &agrave; travers plusieurs &eacute;tapes. La premi&egrave;re est la reconnaissance du niveau suprasegmental, qui joue &laquo;&nbsp;un r&ocirc;le important dans la mise en place des premi&egrave;res constructions grammaticales, notamment au moment de l&rsquo;apparition des premiers mots et des premi&egrave;res combinaisons de mots, dans la p&eacute;riode qui suit la p&eacute;riode du mot isol&eacute; (stade holophrastique)&nbsp;&raquo; (Martel &amp; Dodane, 2012, p13). La prosodie n&rsquo;a pas &eacute;t&eacute; consid&eacute;r&eacute;e dans cette &eacute;tude pour des raisons de faisabilit&eacute;, le focus &eacute;tant sur lexique d&rsquo;une part et la phon&eacute;tique d&rsquo;autre part. Cependant, les enfants basent leur acquisition sur la prosodie afin de d&eacute;tecter les pauses, les intonations et les accentuations qui les aident &agrave; visualiser la fronti&egrave;re entre mots ainsi que les relations de d&eacute;pendance syntaxique. En fait &laquo;&nbsp;il semble bien que les caract&eacute;ristiques prosodiques soient utilis&eacute;es par l&rsquo;enfant pour poser les fondements des futures constructions grammaticales, mais que celles-ci se manifestent diff&eacute;remment au moment des premiers mots (gabarit temporel des proto-mots et des premiers mots) et des premi&egrave;res combinaisons de mots (contours unitaires qui permettent d&rsquo;assurer la coh&eacute;sion des diff&eacute;rentes unit&eacute;s au sein d&rsquo;une unit&eacute; plus grande)&nbsp;&raquo; (Martel &amp; Dodane, 2012, p32-33).</p> <p>Le but de l&rsquo;exemple propos&eacute; est&nbsp;de mod&eacute;liser la structuration des variations phon&eacute;tico-phonologiques au cours du temps, ainsi que d&rsquo;estimer le degr&eacute; de variabilit&eacute; intra-enfant et inter-enfants. Des &eacute;tudes pr&eacute;c&eacute;dentes (Dos Santos, 2007 ; Yamaguchi, 2012 ; Morgenstern, 2012) ont montr&eacute; qu&rsquo;il n&rsquo;y a pas un parcours &laquo;&nbsp;typique&nbsp;&raquo; dans l&rsquo;acquisition, mais plut&ocirc;t des contraintes d&rsquo;ordre phon&eacute;tique et phonologique qui d&eacute;finissent les contours possibles du cheminement vers la norme adulte. Chaque variation semblerait &ecirc;tre influenc&eacute;e par la variation pr&eacute;c&eacute;dente qui, &agrave; son tour, exercerait une influence sur la variation suivante (Sauvage, 2015). Dans d&rsquo;autres termes, les variations ne seraient pas dues au hasard, mais elles seraient contraintes par plusieurs facteurs comme le lieu d&rsquo;articulation, le mode d&rsquo;articulation, ainsi que la fr&eacute;quence d&rsquo;occurrences d&rsquo;une cible dans l&rsquo;input parental&nbsp;(Ambridge et al., 2015).</p> <p>Il y a essentiellement deux th&eacute;ories qui pourraient &ecirc;tre adopt&eacute;es afin de rendre compte des parcours d&rsquo;acquisition&nbsp;: la th&eacute;orie de l&rsquo;optimalit&eacute; (connue sous les termes anglais&nbsp;d&#39;&nbsp;&quot;optimality theory&quot;, Prince &amp; Smolensky, 2004) et la th&eacute;orie des traits phonologique (Clements, 1985). Ces th&eacute;ories font respectivement partie du courant inn&eacute;iste et constructiviste. Dans cette &eacute;tude, la th&eacute;orie de Clements a &eacute;t&eacute; adopt&eacute;e&nbsp;pour diff&eacute;rentes raisons&nbsp;: l&rsquo;auteur de l&rsquo;article est convaincu qu&rsquo;elle a un pouvoir explicatif plus profond et exhaustif de la th&eacute;orie concurrente ; de&nbsp;plus, la majorit&eacute; des r&eacute;f&eacute;rences bibliographiques cit&eacute;es dans cet article adoptent le constructivisme (ou &quot;usage-based theory&quot; en anglais) comme point de d&eacute;part des analyses. Cependant, le focus n&rsquo;est pas sur la capacit&eacute; de cette th&eacute;orie &agrave; rendre compte de toutes les variations possibles dans les parcours d&rsquo;acquisition des consonnes et des voyelles du fran&ccedil;ais. Notre contribution vise plut&ocirc;t &agrave; comprendre comment un algorithme de reconnaissance de motifs s&eacute;quentiels (&quot;pattern mining&quot;) peut nous aider &agrave; fouiller une grande base de suivis longitudinaux qu&#39;il&nbsp;serait&nbsp;impossible de traiter manuellement. La versatilit&eacute; de cet algorithme pourrait fournir les bases pour comprendre quels sont les facteurs les plus importants dans l&rsquo;acquisition des phon&egrave;mes parmi le lieu d&rsquo;articulation, le mode d&rsquo;articulation et la fr&eacute;quence d&rsquo;occurrences d&rsquo;une cible dans l&rsquo;input parental. Il est en fait difficile de pouvoir quantifier pr&eacute;cis&eacute;ment quelle est la proportion entre ces facteurs.</p> <p>Le corpus CoLaJE offre d&eacute;j&agrave; &ndash; via la plateforme num&eacute;rique Ortolang &ndash;&nbsp;un outil de requ&ecirc;te pr&eacute;cieux qui aide &agrave; cibler des mots pr&eacute;cis et&nbsp;la possibilit&eacute; de saisir des expressions r&eacute;guli&egrave;res<a href="#_ftn3" name="_ftnref3" title="">[3]</a>. Les r&eacute;sultats propos&eacute;s ont constitu&eacute; le point de d&eacute;part de notre travail, puis une analyse plus d&eacute;taill&eacute;e a &eacute;t&eacute; men&eacute;e en utilisant la librairie &laquo;&nbsp;pylangacq&nbsp;&raquo; en langage Python<a href="#_ftn4" name="_ftnref4" title="">[4]</a> (Lee et al., 2016), ainsi que l&rsquo;ensemble des algorithmes pr&eacute;sents dans une autre librairie Python, appel&eacute;e &laquo;&nbsp;pymining&nbsp;&raquo;<a href="#_ftn5" name="_ftnref5" title="">[5]</a>. Les exemples ci-dessous ont &eacute;t&eacute; choisis pour leur repr&eacute;sentativit&eacute; en fonction de plusieurs crit&egrave;res&nbsp;: la pr&eacute;sence de plusieurs suites consonantiques, le fait d&rsquo;avoir au moins deux syllabes, la pr&eacute;sence de consonnes qui sont acquises relativement tard (le /ʁ/ par exemple), leur fr&eacute;quence &eacute;lev&eacute;e dans le corpus en question (c&rsquo;est-&agrave;-dire, plusieurs occurrences diff&eacute;rentes &agrave; des &acirc;ges diff&eacute;rents&nbsp;pour plusieurs enfants diff&eacute;rents, ce qui permettrait de poser les bases pour une &eacute;ventuelle g&eacute;n&eacute;ralisation d&rsquo;un parcours typique).</p> <p>Voici deux exemples d&rsquo;application&nbsp;:</p> <p>Premier exemple : pour le mot cible &lsquo;tracteur&rsquo;, /tʁaktoeʁ/, qui a une structure syllabique du type CCVCCVC, on liste toutes les variations phon&eacute;tico-phonologiques observ&eacute;es dans les transcriptions des enfants du projet CoLaJE (la valeur num&eacute;rique correspondant &agrave; l&#39;&acirc;ge sur le mod&egrave;le ann&eacute;es_mois_jours) :</p> <p>/kʁikt&oelig;ʁ/ Antoine 2_02_27&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kʁat&oelig;ʁ/ Antoine 2_02_27 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kʁat&oelig;ʁ/ Antoine 2_03_05</p> <p>/kʁak&oelig;ʁ/ Antoine 2_04_03&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /tatoʁ/ Th&eacute;ophile 2_10_28&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /taktɔ/ Adrien 3_09_09</p> <p>/toktɔʁ/ Adrien 4_00_15&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /taktɔʁ/ Adrien 4_00_15&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /takt&oelig;ʁ/ Adrien 4_02_15</p> <p>/takt&oelig;ʁ/ Adrien 4_02_15&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /sakt&oelig;ʁ/ Julie 1_06_04 (BRO) /ʁakt&oelig;ʁ/ Julie 1_07_26</p> <p>/tat&oslash;/ Julie 1_07_26&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /tʁakt&oelig;ʁ/ Julie 2_09_24&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /tʁakt&oelig;ʁ/ Julie 2_09_24</p> <p>On observe que les variations autour de la norme (ou cible phon&eacute;tique/phonologique) /tʁakt&oelig;ʁ/ varient en fonction de l&rsquo;&acirc;ge et de l&rsquo;enfant.</p> <p>Deuxi&egrave;me exemple : mot cible crayon / kʁɛjɔ̃/ , structure syllabique CCVCV</p> <p>/kʁɛjɔ̃/ Antoine 2_06_24&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kʁejɔ̃/ Antoine 2_06_24&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kʁejɔ̃/ Antoine 2_06_24</p> <p>/tʁɛjɔ̃/ Antoine 2_06_24&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kɛʁejɔ̃/ Th&eacute;ophile 3_02_00&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /crejɔ̃ː/ Th&eacute;ophile 3_04_10</p> <p>/kʁɛjɔ̃/ Th&eacute;ophile 3_05_11&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kʁɛjɔ̃/ Th&eacute;ophile 3_07_08&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kʁɛjɔ̃/ Th&eacute;ophile 4_03_29</p> <p>/kʁɛjɔ̃/ Th&eacute;ophile 4_09_07&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kijo / Adrien 4_01_12&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kʁɛjɔ̃/ Julie 2_03_08</p> <p>/kʁɛjɔ̃/ Julie 2_11_01&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kʁɛjɔ̃/ Julie 3_04_21&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kʁɛʒjɔ̃/ Julie 3_04_21</p> <p>/kʁɛjɔ̃/ Julie 3_04_21&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kejɔ̃/ Anae 2_00_26&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /tejɔ̃/ Anae 2_00_26</p> <p>/tijɔ̃/ Anae 2_00_26&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /tijɔ̃/ Anae 2_00_26&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kʁejɔ̃/ Anae 2_06_27</p> <p>/jʁajɔ̃/ Anae 2_08_24&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /kʁejɔ̃/ Anae 5_10_30</p> <p>Le d&eacute;nominateur commun entre Ana&euml; et Julie est qu&rsquo;elles semblent &ndash; autour de l&rsquo;&acirc;ge 2 ans et demi/trois ans &ndash; avoir appris une fois pour toutes la forme correcte du mot cible, puisqu&rsquo;elles arrivent &agrave; bien l&rsquo;articuler &agrave; des intervalles de temps successifs. Cependant, elles produisent une variation qu&rsquo;elles n&rsquo;avaient jamais produit auparavant. Ce ph&eacute;nom&egrave;ne, bien qu&rsquo;il soit contre-intuitif &ndash; il est assez commun en acquisition L1 (Sauvage, 2015, p125, en particulier le ph&eacute;nom&egrave;ne de r&eacute;gression). Il faut remarquer qu&rsquo;il pourrait s&rsquo;agir &eacute;galement d&rsquo;une variation qui n&rsquo;avait simplement pas &eacute;t&eacute; collect&eacute;e par la densit&eacute; d&rsquo;&eacute;chantillonnage d&rsquo;une heure par mois pr&eacute;vue par le projet CoLaJE, (voir les r&eacute;flexions de Yamaguchi autour de la repr&eacute;sentativit&eacute; - Yamaguchi, 2018).</p> <p>La proc&eacute;dure pour rep&eacute;rer et analyser les variations est la suivante&nbsp;:</p> <p>i) chercher le mot d&eacute;sir&eacute; via la requ&ecirc;te du projet Ortolang</p> <p>ii) avoir acc&egrave;s aux transcriptions des enfants CoLaJE par le biais de la librairie Pylangacq</p> <p>iii) mettre en place un algorithme du type &quot;if-then&quot; et&nbsp;v&eacute;rifier que&nbsp;le mot prononc&eacute; n&#39;est pas diff&eacute;rent du mot cible&nbsp;</p> <p>iv) S&#39;il l&#39;est, d&eacute;tecter sa structure syllabique via Pymining et si non, la ligne du code se termine ainsi.</p> <p>La partie la plus difficile consiste en la d&eacute;finition de la variation, c&rsquo;est-&agrave;-dire qu&rsquo;une fois que la variation a &eacute;t&eacute; d&eacute;tect&eacute;e, il faudrait apprendre &agrave; la machine &agrave; la classer dans une des cat&eacute;gories ci-dessous, qui &agrave; leur tour se basent sur plusieurs crit&egrave;res (lieu et mode d&rsquo;articulation, voisement, permutation dans l&#39;ordre des syllabes, ajout ou suppression d&rsquo;une syllabe/phon&egrave;me,&nbsp;etc.) :</p> <p>1) Omission</p> <p>2) Substitution</p> <p>3) Assimilation</p> <p>4) R&eacute;duction</p> <p>5) Duplication</p> <p>6) Epenth&egrave;se</p> <p>7) M&eacute;tath&egrave;se</p> <p>Cet essai s&#39;est arr&ecirc;t&eacute; &agrave; la structure syllabique car il a &eacute;t&eacute; difficile de programmer la partie concernant les 7 variations phon&eacute;tiques possibles&nbsp;: trop de variables et trop d&rsquo;&eacute;tapes cons&eacute;quentielles &eacute;taient pr&eacute;sentes. Par exemple, apr&egrave;s&nbsp;avoir d&eacute;tect&eacute; une substitution, il aurait fallu aussi trouver un moyen de classer cette substitution en fonction du phon&egrave;me remplac&eacute;&nbsp;: une substitution de fricatives par des occlusives n&rsquo;est pas &eacute;quivalente &agrave; une substitution de liquides par des semi-voyelles. Un autre exemple encore plus complexe&nbsp;: dans l&rsquo;assimilation, deux sons deviennent semblables au niveau du lieu d&rsquo;articulation, du mode d&rsquo;articulation ou du voisement, mais l&rsquo;on voit bien qu&rsquo;il ne serait pas rigoureux de mettre sur le m&ecirc;me plan ces trois crit&egrave;res. Il aurait peut-&ecirc;tre fallu concevoir une hi&eacute;rarchie, mais laquelle&nbsp;?&nbsp;</p> <p>Prenons un dernier exemple,&nbsp;le cas des m&eacute;tath&egrave;ses. L&rsquo;&eacute;cueil principal a &eacute;t&eacute; le nombre et la vari&eacute;t&eacute; de ces derni&egrave;res&nbsp;: a&eacute;roport &rarr;&nbsp;[aʁeopɔʁ] n&rsquo;est pas identique au cas suivant : toboggan &rarr; [togobɑ̃]. Dans le premier cas il s&rsquo;agit d&rsquo;une m&eacute;tath&egrave;se entre une consonne et une voyelle, dans le deuxi&egrave;me cas, d&rsquo;une m&eacute;tath&egrave;se entre deux consonnes.</p> <p>On pourrait &eacute;galement ajouter une autre difficult&eacute;&nbsp;: les variations li&eacute;es au processus phon&eacute;tique/phonologique&nbsp;&eacute;num&eacute;r&eacute;es ci-dessus peuvent avoir lieu en d&eacute;but de&nbsp;mot, au milieu ou &agrave; la fin, et elles peuvent concerner une seule consonne, une seule&nbsp;voyelle ou bien une syllabe.</p> <p>Durant la r&eacute;flexion autour de la multiplicit&eacute; de ces variations, des questions ont &eacute;t&eacute; r&eacute;currentes&nbsp;: puisqu&rsquo;il y a des variations de nature diff&eacute;rente, est-ce qu&rsquo;il faut attribuer un poids diff&eacute;rent selon la nature de la variation&nbsp;? Quels crit&egrave;res pourrait-t-on adopter afin d&rsquo;attribuer ce poids ?</p> <p>Malheureusement, il n&rsquo;a pas &eacute;t&eacute; possible de prendre en compte toutes ces possibles variations, trop de facteurs concurrents &eacute;taient en jeu et les comp&eacute;tences de l&rsquo;auteur ne sont pas &agrave; la hauteur d&rsquo;une t&acirc;che algorithmique si complexe. N&eacute;anmoins, certains travaux ont conduit &agrave; un travail analogue, par exemple le r&eacute;seau neurones qui prend en compte &agrave; la fois l&rsquo;aspect phon&eacute;tique et phonologique du logiciel PRAAT (Boersma et al., 2020), qui propose des pistes qui pourraient r&eacute;pondre aux questionnements ci-dessus.</p> <p>Il est&nbsp;difficile de d&eacute;gager un parcours typique &agrave; partir de ces variations&nbsp;: le nombre et la nature des variations est relativement trop grand. Le premier obstacle est d&rsquo;ordre purement statistique et concerne&nbsp;la relation entre &eacute;chantillon et population&nbsp;: malheureusement, il n&rsquo;y avait pas moyen d&rsquo;avoir une occurrence de chaque mot pour chaque enregistrement mensuel et pour chaque enfant du corpus CoLaJE. M&ecirc;me les mots les plus fr&eacute;quents peuvent parfois manquer, notamment aux plus jeunes &acirc;ges lorsque les enfants parlent relativement peu. La&nbsp;deuxi&egrave;me difficult&eacute; est de comprendre pourquoi une variation s&rsquo;est produite &agrave; la place d&rsquo;une autre.</p> <p>Par exemple, pourquoi /toktɔʁ/ Adrien 4_00_15 et /taktɔʁ/ Adrien 4_00_15 ? Il serait difficile de croire que l&rsquo;enfant &agrave; 4 ans ne soit pas capable de percevoir et articuler la diff&eacute;rence entre les voyelles /o/ et /a/.</p> <p>Le troisi&egrave;me obstacle r&eacute;side dans l&rsquo;interpr&eacute;tation de la cause de la variation, c&rsquo;est-&agrave;-dire d&#39;identifer les motivations d&#39;un enfant &agrave; prononcer telle variation ou une autre. Par exemple, une strat&eacute;gie d&rsquo;&eacute;vitement qui porte les enfants &agrave; omettre ou &agrave; r&eacute;duire une consonne cible qui demande trop d&rsquo;effort articulatoire, comme dans le cas suivant&nbsp;:&nbsp;/tatoʁ/ Th&eacute;ophile 2_10_28,&nbsp;ou bien une assimilation, quand l&#39;enfant tend &agrave; pr&eacute;f&eacute;rer les suites syllabiques qui ont un point d&rsquo;articulation en commun, comme dans :&nbsp;/kʁak&oelig;ʁ/ Antoine 2_04_03.</p> <p>Apr&egrave;s avoir essay&eacute; plusieurs combinaisons d&rsquo;algorithmes pour plusieurs mots diff&eacute;rents, nous nous sommes confront&eacute;s aux limites de l&rsquo;approche informatis&eacute;e. Il n&rsquo;est possible que de confirmer les tendances d&rsquo;acquisition qui ont d&eacute;j&agrave; &eacute;t&eacute; confirm&eacute;es par la litt&eacute;rature existante (Dos Santos, 2007&nbsp;; Yamaguchi, 2012), notamment&nbsp;l&rsquo;ordre d&rsquo;acquisition des voyelles ou des consonnes, ainsi que les variations les plus fr&eacute;quentes et les&nbsp;moins fr&eacute;quentes. Mais pour ce qui concerne la pr&eacute;diction avec un degr&eacute; de pr&eacute;cision acceptable, il a &eacute;t&eacute; difficile d&rsquo;envisager la compr&eacute;hension des suites de&nbsp;variations au cours du temps&nbsp;: quelle variation suivra en fonction des deux variations pr&eacute;c&eacute;dentes&nbsp;? Cette question reste sans r&eacute;ponse.</p> <p>La combinaison d&rsquo;algorithmes s&rsquo;est r&eacute;v&eacute;l&eacute;e &ecirc;tre une m&eacute;thode infructueuse, la variabilit&eacute; intra-enfant et inter-enfants &eacute;tant trop grande. Une autre piste possible pourrait &ecirc;tre&nbsp;de se focaliser sur un sujet plus restreint, par exemple explorer les variations syllabiques analogues comme les occlusives-liquides. On pourrait commencer en dressant une liste suffisamment repr&eacute;sentative de mots qui contiennent ce type de syllabe et proc&eacute;der &eacute;tape par &eacute;tape (cf les&nbsp;4 &eacute;tapes list&eacute;es ci-dessus). Ce focus devrait permettre de r&eacute;duire consid&eacute;rablement le nombre de variations possible et rendre par la suite la t&acirc;che de programmation plus simple.</p> <p>Pour conclure, ces r&eacute;sultats montrent comment il est a priori b&eacute;n&eacute;fique de mod&eacute;liser les multiples variations phon&eacute;tiques/phonologiques &agrave; l&rsquo;aide d&rsquo;outils de TAL&nbsp;: on s&rsquo;aper&ccedil;oit que &ndash; malgr&eacute; le fait que la nature des variations soit multiforme et leur nombre &eacute;lev&eacute; &ndash; elles peuvent &ecirc;tre inclues dans un seul mod&egrave;le qui pourrait rendre compte des r&egrave;gles qui r&eacute;gissent les parcours possibles de leur &eacute;volution. Comme il a d&eacute;j&agrave; &eacute;t&eacute; dit, les r&eacute;sultats pr&eacute;sent&eacute;s dans cette &eacute;tude n&rsquo;ont qu&rsquo;une valeur anecdotique&nbsp;: ils s&rsquo;accordent de mani&egrave;re globale &agrave; des &eacute;tudes de cas qui ont &eacute;t&eacute; men&eacute;es sur le m&ecirc;me corpus (Yamaguchi, 2012) ou sur d&rsquo;autres enfants francophones collect&eacute;s avec des m&eacute;thodes comparables (Dos Santos, 2007).</p> <p>Ce travail&nbsp;contient une partie de nombreux travaux de fouille et mod&eacute;lisation du corpus CoLaJE qui ont &eacute;t&eacute; produits lors d&rsquo;une collaboration entre linguistes et informaticiens de l&rsquo;Universit&eacute; Paul Val&eacute;ry&nbsp;Montpellier3 (pour la pr&eacute;cision, il s&#39;agit des data scientists du master MIASHS guid&eacute;.e.s par S. Bringay) pendant l&rsquo;ann&eacute;e acad&eacute;mique 2019-2020. Pour un aper&ccedil;u de ces travaux, veuillez suivre le lien en bas de page<a href="#_ftn6" name="_ftnref6" title="">[6]</a>.</p> <p>&nbsp;</p> <h2>Conclusion</h2> <p>Le but de cet article &eacute;tait&nbsp;de mener une r&eacute;flexion autour de l&rsquo;utilisation de mod&egrave;les et techniques de TAL pour mettre en relief la relation entre norme et variation dans le cadre de l&rsquo;acquisition du fran&ccedil;ais langue premi&egrave;re.</p> <p>Deux cas d&rsquo;&eacute;tude ont &eacute;t&eacute; propos&eacute;s&nbsp;: dans le premier, la variation avait une double articulation au niveau lexical et au niveau du vocabulaire de l&rsquo;enfant. Les r&eacute;sultats d&rsquo;une &eacute;tude pr&eacute;c&eacute;dente (Briglia et al., 2022) ont montr&eacute; comment la cr&eacute;ation d&rsquo;un mod&egrave;le unifi&eacute; de la cat&eacute;gorie de mot (con&ccedil;u comme une unit&eacute; compos&eacute;e par trois constituants&nbsp;: signifiant-signifi&eacute;-r&eacute;f&eacute;rent) permet de rassembler plusieurs variations phon&eacute;tiques/phonologiques sous une m&ecirc;me cat&eacute;gorie afin de faciliter l&rsquo;analyse d&rsquo;un autre type de variation, celle de l&rsquo;exposant alpha, un indice qui repr&eacute;sente comment la distribution de fr&eacute;quence des mots dans le vocabulaire de l&rsquo;enfant varie respectivement&nbsp;:</p> <p>i) au cours du temps (intra-enfant)</p> <p>ii) entre les enfants (inter-enfants)</p> <p>iii) entre les enfants et leurs&nbsp;parents (corr&eacute;lation de Spearman).</p> <p>Pour cette derni&egrave;re analyse, le codage des transcriptions CHI-FAT-MOT, la mise au point de crit&egrave;res pour unifier les variations sous un seul ensemble ainsi que le calcul des fr&eacute;quences d&rsquo;occurrence et des corr&eacute;lations a &eacute;t&eacute; fait automatiquement en langage Python.</p> <p>Alors que dans le deuxi&egrave;me exemple on a pu appr&eacute;cier la rapidit&eacute; des algorithmes de reconnaissance de motifs s&eacute;quentiels et comprendre comment la prise en compte de toutes les variations phon&eacute;tiques-phonologiques autour de la norme adulte est th&eacute;oriquement faisable, dans la pratique il est difficile d&rsquo;attribuer la bonne place et le juste poids aux diff&eacute;rents crit&egrave;res articulatoires qui d&eacute;finissent les variations.</p> <p>L&rsquo;application de mod&egrave;les, de techniques et de r&eacute;f&eacute;rentiels issus de l&rsquo;informatique dans le domaine de la linguistique est croissant et permet la v&eacute;rification d&rsquo;hypoth&egrave;ses de mani&egrave;re fiable, reproductible et rapide. De&nbsp;plus, la plupart des logiciels pour l&rsquo;analyse de&nbsp;corpus (Antconc, TXM, Iramuteq), de la parole (PRAAT, PHON) ou de la gestualit&eacute; (ELAN) sont en libre acc&egrave;s et &quot;open source&quot;, ce qui repr&eacute;sente un v&eacute;ritable atout.</p> <p>Malgr&eacute; ces avantages, l&rsquo;adoption des techniques de TAL ne doit pas &ecirc;tre interpr&eacute;t&eacute;e comme un passepartout qui se fait a priori&nbsp;sur une connaissance approfondie de la langue elle-m&ecirc;me ou du ph&eacute;nom&egrave;ne linguistique (l&rsquo;acquisition de la L1 par exemple). La rapidit&eacute; et la puissance de calcul doivent &ecirc;tre dirig&eacute;es par des assomptions, des hypoth&egrave;ses, des cadres th&eacute;oriques que &ndash; &agrave; l&rsquo;heure d&rsquo;aujourd&rsquo;hui &ndash; seuls les intelligences humaines peuvent ma&icirc;triser.</p> <p>D&rsquo;autres outils de TAL d&eacute;velopp&eacute;s au sein de la communaut&eacute; francophone qui pourraient &ecirc;tre utilis&eacute;s afin d&rsquo;&eacute;valuer l&rsquo;acquisition du fran&ccedil;ais langue premi&egrave;re chez l&rsquo;enfant sont par exemple l&rsquo;iPhocomp (Lee et al., 2014) et l&rsquo;ISC (Index de Complexit&eacute; Syntaxique, Szmrecsanyi, 2004). En effet, lorsque l&rsquo;on dispose de suivis longitudinaux disponibles sous plusieurs formats diff&eacute;rents comme pour le corpus CoLaJE, on a par cons&eacute;quent l&rsquo;opportunit&eacute; d&rsquo;obtenir un score pour chaque mot et/ou &eacute;nonc&eacute; prononc&eacute; par l&rsquo;enfant en automatisant &ndash; par le biais d&rsquo;un langage de programmation comme Python - la t&acirc;che de calcul de ces scores pour chaque ligne,&nbsp;qu&rsquo;il s&#39;agisse de&nbsp;la ligne CHI, PHO ou MOD, et quel que soit son format (csv, CHAT ou TEI, pour ne citer que les formats pr&eacute;sents sur CoLaJE-Ortolang). Une &eacute;tude r&eacute;cente a montr&eacute; la validit&eacute; de l&rsquo;emploi de ces deux scores pour la pr&eacute;diction de l&rsquo;acquisition de certaines cat&eacute;gories grammaticales sur une &eacute;tude de cas (sur l&rsquo;enfant Adrien) tir&eacute; du corpus CoLaJE (Briglia et al., 2022).</p> <p>Au cours de ces derni&egrave;res ann&eacute;es, la technologie de TAL qui semblerait &ecirc;tre la plus compl&egrave;te et exhaustive, le BERT (acronyme pour &quot;Bidirectional Encoder Representations from Transformes&quot;) a &eacute;t&eacute; am&eacute;lior&eacute;e (en termes&nbsp;de performance pour la langue fran&ccedil;aise) gr&acirc;ce &agrave; la prise en compte des particularit&eacute;s de la langue vis&eacute;e. C&rsquo;est ainsi que CamemBERT (Martin et al., 2020) a pu voir le jour.</p> <p>On pourrait craindre que cette augmentation constante de la pr&eacute;sence de l&rsquo;informatique dans le champ d&rsquo;investigation qui a traditionnellement fait partie de la linguistique cause&nbsp;&ndash; dans un avenir proche ou lointain &ndash; un d&eacute;classement de cette derni&egrave;re. Ces craintes sont vraisemblables, pourtant il est &agrave; noter que tout syst&egrave;me d&rsquo;annotation automatique en parties du discours (&quot;POS tagging&quot; en anglais), classification de texte, plongement de mots en allant jusqu&rsquo;aux derni&egrave;res technologies d&rsquo;apprentissage par la machine (BERT ou, plus g&eacute;n&eacute;ralement, les r&eacute;seau de neurones, qu&rsquo;ils soient supervis&eacute;s ou pas), ne peut pas &ecirc;tre con&ccedil;u sans une connaissance linguistique pr&eacute;alable. De&nbsp;plus, bien que l&rsquo;intelligence artificielle soit toujours plus raffin&eacute;e dans ses pr&eacute;dictions et ses inf&eacute;rences sur le langage, elle pr&eacute;sente des probl&egrave;mes r&eacute;currents au niveau de la coarticulation (les technologies &quot;speech-to-text&quot; et &quot;text-to-speech&quot;), la synonymie et la polys&eacute;mie, ainsi que pour ce qui concerne la signification en contexte (i.e le niveau pragmatique). En d&rsquo;autres mots, tout ce qui rel&egrave;ve de la compr&eacute;hension des diff&eacute;rents accents ou des diff&eacute;rentes acceptions, du style, de la nuance, de variation en fonction du contexte, d&rsquo;ambigu&iuml;t&eacute;s ou bien de sous-entendus reste encore difficile &agrave; d&eacute;tecter pour les machines. La souplesse, ainsi que la cr&eacute;ativit&eacute;, sembleraient devoir rester des comp&eacute;tences mieux ma&icirc;tris&eacute;es par les intelligences humaines.</p> <p>Ces diff&eacute;rences nous montrent comment une synergie entre linguistes et informaticiens pourrait constituer le noyau d&rsquo;une bonne partie des futures recherches dans le domaine du langage.</p> <p style="margin-bottom:11px">&nbsp;</p> <h2>Bibliographie</h2> <p>Ambridge, B., Kidd, E., Rowland, C. F., &amp; Theakston, A. L. (2015). The ubiquity of frequency effects in first language acquisition. <em>Journal of child language</em>, 42(2), 239-273</p> <p>Baixeries J., Elvevag B. and Ferrer-i-Cancho R. (2013). The Evolution of the Exponent of Zipf&rsquo;s Law in Language Ontogeny. PLoS ONE 8(3): e53227</p> <p>Bates, E., Dale, P. S., &amp; Thal, D. (1995). <em>Individual differences and their implications for theories of language development</em>. The handbook of child language, 30, 96-151</p> <p>Boersma, P., Benders, T., &amp; Seinhorst, K. (2020). Neural network models for phonology and phonetics. <em>Journal of Language Modelling Vol, 8</em>(1), 103-177</p> <p>Briglia A. &ldquo;Statistical and computational approaches to first language acquisition. Mining a set of French longitudinal corpora (CoLaJE&rdquo;). Th&egrave;se Universit&eacute; Paul Val&eacute;ry Montpellier 3; Universit&agrave; di Messina. 2021.</p> <p>Briglia A., Mucciardi M., Pirrotta G. (2022). &ldquo;A statistical model for predicting child language acquisition: unfolding qualitative grammatical development by using logistic regression model&rdquo;. In Salvati N., Perna C., Marchetti S., Chambers R. &ldquo;Studies in Theoretical and Applied Statistics&rdquo;. Springer Proceedings in Mathematics &amp; Statistics. PROMS, volume 406. SIS 2021, Pisa.&nbsp;</p> <p>Briglia A., Mucciardi M., Pirrotta G. &ldquo;The development of word frequency distribution in first language acquisition. An analysis on a spoken language corpus of French children&rdquo;. Vadistat Press. <em>Proceedings of the 16th International Conference on Statistical Analysis of Textual Data (JADT)</em>, 1 (16)</p> <p>Clements, G. N. (1985). The geometry of phonological features. <em>Phonology yearbook</em> 2.225-252</p> <p>Dos Santos, C. (2007). <em>D&eacute;veloppement phonologique en fran&ccedil;ais langue maternelle: une &eacute;tude de cas</em> (Doctoral dissertation, Universit&eacute; Lumi&egrave;re Lyon 2).</p> <p>Dubois, J., Marcellesi, J-B., M&eacute;yel, J-P. &amp; Giascamo, M. (1973). <em>Dictionnaire de linguistique</em>. Paris : Larousse</p> <p>Goodman J., Dale P. and Li P. (2008). Does frequency count? Parental input and the acquisition of vocabulary. <em>Journal of Child Language</em>, 35(03), 515&ndash;531</p> <p>Hickmann M.; Veneziano E.; Harriett J. (Eds) (2018). Sources of Variation in First Language Acquisition. <em>Languages, contexts and learners</em>.&nbsp; John Benjamins</p> <p><a name="_Hlk120873323">Hoedt, A., &amp; Piron, J. (2016). </a><em>La faute de l&rsquo;orthographe</em>. Paris, <em>Textuel</em></p> <p>Barge J. S. Pour une nouvelle conception de la &quot;norme&quot; linguistique dans l&#39;enseignement des langues. <a href="https://hal.archives-ouvertes.fr/hal-00385090v2" target="_blank">&lang;hal-00385090v2&rang;</a></p> <p>Jusoh, S. (2018). A study on NLP applications and ambiguity. <em>Journal of Theoretical &amp; Applied Information Technology</em>, 96(6)</p> <p>Kraif O., Ponton C. (2007). Du bruit, du silence et des ambigu&iuml;t&eacute;s : que faire du TAL pour l&rsquo;apprentissage des langues ? In <em>Actes de la 14&egrave;me conf&eacute;rence sur le Traitement Automatique des Langues Naturelles</em>. Posters, pages 143&ndash;152, Toulouse, France. ATALA</p> <p>Lee, H., Gambette, P., Barkat-Defradas, M. (2014). iPhocomp: calcul automatique de l&rsquo;indice de complexit&eacute; phon&eacute;tique de Jakielski. <em>JEP 2014, XXX&egrave; &eacute;dition des Journ&eacute;es d&#39;Etudes sur la Parole</em>, Le Mans, France. pp.622-630, 2014, Actes de la XXXe &eacute;dition des Journ&eacute;es d&#39;Etudes sur la Parole.</p> <p>Lee, Jackson L., Ross Burkholder, Gallagher B. Flinn, and Emily R. Coppess. (2016). Working with CHAT transcripts in Python. <em>Technical report TR-2016-02,</em> Department of Computer Science, University of Chicago.</p> <p>Lestrade S. (2017). Unzipping Zipf&rsquo;s law. <em>PlosOne</em></p> <p>MacWhinney, B. (2000). The Childes Project: Tools for Analyzing Talk, Volume II: the Database (3rd ed.). <em>Psychology Press</em></p> <p>Martel, K., &amp; Dodane, C. (2012). Le r&ocirc;le de la prosodie dans les premi&egrave;res constructions grammaticales : &eacute;tude de cas d&#39;un enfant fran&ccedil;ais monolingue. <em>Journal of French Language Studies</em>, 22(1), 13-35</p> <p>Martin, L., Muller, B., Su&aacute;rez, P. J. O., Dupont, Y., Romary, L., de la Clergerie, &Eacute;. V., Sagot, B. (2020). CamemBERT: a Tasty French Language Model. In <em>ACL 2020-58th Annual Meeting of the Association for Computational Linguistics</em></p> <p>Morgenstern, A., &amp; Parisse, C. (2007). Codage et interpr&eacute;tation du langage spontan&eacute; d&rsquo;enfants de 1 &agrave; 3 ans. <em>Corpus</em>, (6), 55-78</p> <p style="margin-bottom:11px">Morgenstern A.; Parisse C. (2012). The Paris Corpus. <em>French language studies</em> 22. 7-12. Cambridge University Press. Special Issue<span style="font-size:11pt"><span style="line-height:107%"><span calibri="" style="font-family:">.</span></span></span></p> <p>Mucciardi M., Pirrotta G., Briglia A., Sallaberry A. (2021). Visualizing cluster of words: a graphical approach to grammar acquisition. In Giovanni C. Porzio; Carla Rampichini; Chiara Bocci (Eds). <em>CLADAG 2021 BOOK OF SHORT PAPERS. 13th Meeting of the Classification and Data Analysis Group -</em> Firenze University Press</p> <p>Piantadosi S. (2014). Zipf&rsquo;s word frequency law in natural language: A critical review and future directions. <em>Psychon Bull Rev</em>.; 21(5): 1112&ndash;1130</p> <p>Prince, A., Smolensky P. (2004): Optimality Theory: Constraint Interaction in Generative Grammar. <em>Blackwell Publishers</em>.</p> <p>Sauvage J. (2015). &nbsp;L&rsquo;acquisition du langage : un syst&egrave;me complexe. <em>L&rsquo;Harmattan</em>, Louvain</p> <p>Siouffi, G., &amp; Steuckardt, A. (&eacute;ds). (2007). <em>Les linguistes et la norme</em>. Berne : Peter Lang</p> <p>Srikant R., Agrawal R. (1996). Mining Sequential Patterns: Generalizations and Performance Improvements. <em>Proceedings of the 5th International Conference on Extending Database Technology (EDBT&rsquo;96)</em>. Avignon. France. p. 3-1</p> <p>Szmrecsanyi, B. (2004). On operationalizing syntactic complexity, in: Purnelle, G&eacute;rard, C&eacute;drick Fairon and Anne Dister (eds.), Le poids des mots. <em>Proceedings of the 7th International Conference on Textual Data Statistical Analysis. Vol. 2</em>. Louvain-la-Neuve, Presses Universitaires de Louvain.</p> <p>Thomson, J. R., &amp; Chapman, R. S. (1977). Who is daddy revisited: The status of two-year-olds&#39; over-extended words in use and comprehension. <em>Journal of Child Language</em>, 4(3), 359&ndash;375</p> <p>Tomasello, M., &amp; Stahl, D. (2004). Sampling children&#39;s spontaneous speech: How much is enough ?.&nbsp;<em>Journal of child language</em>, 31(1), 101-121</p> <p>Vihman, M. M. and McCune L. (1994). When is a word a word? <em>Journal of Child Language</em>, 21(3), 517&ndash;542</p> <p>Yamaguchi N. (2012).&nbsp; Parcours d&rsquo;acquisition des sons du langage chez deux enfants francophones. Phd thesis, Sorbonne Nouvelle University (Paris 3)</p> <p>Yamaguchi N. (2018). What is a representative language sample for word and sound acquisition? <em>Revue canadienne de linguistique</em>. University of Toronto Press. 63 (04), pp.667-685</p> <p>Zipf G.K. (1949). Human behaviour and the principle of least effort. <em>Addison-Wesley</em>. Cambridge (MA), USA</p> <div>&nbsp; <hr size="1" /> <div id="ftn1"> <p><a href="#_ftnref1" name="_ftn1" title="">[1]</a> Lien pour le point pr&eacute;cis de l&rsquo;enregistrement o&ugrave; se trouve le mot cible (utiliser la requ&ecirc;te pour trouver d&rsquo;autres mots)&nbsp;: <a href="https://ct3.ortolang.fr/tools/trjsbrowser/trjs.html?f=/data/colaje/adrien/ADRIEN-34-4_03_26/ADRIEN-34-4_03_26.tei_corpo.xml&amp;m=/data/colaje/adrien/ADRIEN-34-4_03_26/ADRIEN-34-4_03_26-480p.mp4&amp;time=1380.0&amp;nowave">https://ct3.ortolang.fr/tools/trjsbrowser/trjs.html?f=/data/colaje/adrien/ADRIEN-34-4_03_26/ADRIEN-34-4_03_26.tei_corpo.xml&amp;m=/data/colaje/adrien/ADRIEN-34-4_03_26/ADRIEN-34-4_03_26-480p.mp4&amp;time=1380.0&amp;nowave</a></p> </div> <div id="ftn2"> <p><a href="#_ftnref2" name="_ftn2" title="">[2]</a> <a href="http://advanse.lirmm.fr/EMClustering/">http://advanse.lirmm.fr/EMClustering/</a></p> </div> <div id="ftn3"> <p><a href="#_ftnref3" name="_ftn3" title="">[3]</a> <a href="https://ct3xq.ortolang.fr/ct3xq/interro">https://ct3xq.ortolang.fr/ct3xq/interro</a></p> </div> <div id="ftn4"> <p><a href="#_ftnref4" name="_ftn4" title="">[4]</a> <a href="https://pylangacq.org/">https://pylangacq.org/</a></p> </div> <div id="ftn5"> <p><a href="#_ftnref5" name="_ftn5" title="">[5]</a> <a href="https://github.com/bartdag/pymining">https://github.com/bartdag/pymining</a></p> </div> <div id="ftn6"> <p><a href="#_ftnref6" name="_ftn6" title="">[6]</a> <a href="https://marine27.github.io/TER/index.html">https://marine27.github.io/TER/index.html</a></p> </div> </div>