<h2>Pr&eacute;ambule</h2> <p>Cet article fait r&eacute;f&eacute;rence &agrave; plusieurs fois &agrave; un document de travail et son d&eacute;p&ocirc;t git associ&eacute; <sup><a href="#halshs-03956407">1</a></sup>.</p> <h2>Introduction</h2> <p>Le <a href="https://crisco4.unicaen.fr/des" target="_blank">Dictionnaire &eacute;lectronique des synonymes du CRISCO (D&Eacute;S)</a> contient aujourd&rsquo;hui plus de 50 000 entr&eacute;es, 209 000 relations synonymiques et 32.000 liaisons antonymiques. La base de d&eacute;part concernant les synonymes a &eacute;t&eacute; constitu&eacute;e &agrave; partir de sept dictionnaires classiques. Un premier travail, r&eacute;alis&eacute; par l&rsquo;INALF (Institut National de la Langue Fran&ccedil;aise), a permis d&rsquo;en extraire les relations synonymiques. Le laboratoire ELSAP, qui est devenu par la suite le CRISCO, a ensuite concat&eacute;n&eacute;, homog&eacute;n&eacute;is&eacute; et sym&eacute;tris&eacute; les donn&eacute;es. Depuis 1994, un important travail de correction se perp&eacute;tue par l&rsquo;ajout ou la suppression de liens synonymiques et antonymiques.</p> <p>Apr&egrave;s livraison des donn&eacute;es de l&rsquo;INALF, ce projet a d&eacute;marr&eacute; sous la responsabilit&eacute; de Bernard VICTORRI, directeur de recherche, et Sabine PLOUX, ing&eacute;nieure de recherche, qui ont d&eacute;fini et mis au point les principes de fonctionnement du dictionnaire : union des diff&eacute;rentes ressources, sym&eacute;trisation (g&eacute;n&eacute;rant plus de 50 % de relations suppl&eacute;mentaires), algorithme de calcul des cliques. La repr&eacute;sentation spatiale de l&rsquo;espace s&eacute;mantique et sa projection sur un plan par calcul matriciel ont &eacute;galement &eacute;t&eacute; con&ccedil;ues et r&eacute;alis&eacute;es.</p> <p>De nombreuses personnes sont intervenues, depuis, &agrave; la fois pour des corrections, la maintenance et des am&eacute;liorations (voir la rubrique Historique sur la <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">page de pr&eacute;sentation du site web</a>) parmi lesquelles Jean-Luc MANGUIN, Michel MOREL et Laurette CHARDON, ing&eacute;nieurs successifs en charge du projet.</p> <p>Les deux principes de base du D&Eacute;S est la <b>sym&eacute;trisation</b> et la <b>contextualisation</b>&nbsp;: un mot A peut &ecirc;tre remplac&eacute; par un mot B dans un contexte donn&eacute;, sans modification significative du sens. Comme exemples, nous avons :</p> <ul> <li> <p>Les enfants jouent / s&rsquo;amusent dans la cour.</p> </li> <li> <p>Marie joue/imite/simule Andromaque.</p> </li> <li> <p>Un vin &acirc;cre/&acirc;pre/vert.</p> </li> <li> <p>Des mots crus/verts</p> </li> </ul> <p>Suite &agrave; la mise en ligne publique, gratuite et sans publicit&eacute;, dans les ann&eacute;es 2000 du projet, de nombreux internautes se sont appropri&eacute;s l&#39;interface d&#39;affichage des synonymes ( beaucoup de r&eacute;dactrices et r&eacute;dacteurs d&#39;articles de blogs, de journaux, de livres ... Il suffit de lire les retours dans le <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/livre-dor/" target="_blank">livre d&#39;or</a> et les <a href="https://crisco.unicaen.fr/statistique-dacces-au-des-2023/" target="_blank">statistiques d&#39;acc&egrave;s </a>). L&rsquo;espace s&eacute;mantique au c&oelig;ur du projet scientifique &eacute;tait beaucoup moins utilis&eacute; (certainement du &agrave; un manque de communication du CRISCO et &agrave; un manque de compr&eacute;hension de la part des usagers).</p> <p>Ceci dit, la recherche sur la base du D&Eacute;S s&#39;est depuis &eacute;toff&eacute;e avec des algorithmes de regroupement bien connus en th&eacute;orie des graphes <sup><a href="#halshs-03155459">2</a></sup> .</p> <p>Dans les ann&eacute;es 2000, un autre projet intitul&eacute; &quot;<a href="http://www.atlas-semantiques.eu/" target="_blank">les atlas s&eacute;mantiques</a>&quot; d&eacute;velopp&eacute; par Sabine Ploux (co-fondatrice du projet) a vu le jour sur la base des donn&eacute;es du D&Eacute;S et &eacute;tendu &agrave; l&#39;anglais, l&#39;espagnol et le portugais.</p> <p>L&#39;ensemble des publications en relation avec le D&Eacute;S est regroup&eacute; dans une <a href="https://hal.science/CRISCO-DES" target="_blank">collection HAL</a>&nbsp; avec 71 entr&eacute;es dont 56 publications avec le texte int&eacute;gral. Les textes fondateurs sont ceux de Bernard Victorri, Sabine Ploux et Jean-Luc Manguin <sup><a href="#halshs-00009433">3</a>, <a href="#hal-02430301">4</a>, <a href="#hal-02430342">5</a> et <a href="#hal-04520029">6</a></sup>. Les textes sur l&#39;exploitation du D&Eacute;S depuis 2000 sont &eacute;galement dans la collection CRISCO-DES. Quant aux mises &agrave; jour mensuelles, elles sont sur la <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">page de pr&eacute;sentation du DES</a>.</p> <p>Compl&eacute;ter la base des synonymes du D&Eacute;S avec la cat&eacute;gorie grammaticale apporte des avantages tr&egrave;s int&eacute;ressants&nbsp;:</p> <ul> <li> <p>Cela facilite la recherche de mots polys&eacute;miques. En effet ces derniers sont tr&egrave;s souvent attach&eacute;s &agrave; plusieurs cat&eacute;gories grammaticales. La recherche et l&rsquo;extraction de tels mots est ainsi simplifi&eacute;e. Par exemple mousse est un adjectif ( qui n&rsquo;est pas tranchant&nbsp;: couteau &agrave; pointe mousse), un subst. f&eacute;minin (la mousse du gel-douche dans la baignoire) et substantif masculin (jeune gar&ccedil;on sur un navire)</p> </li> <li> <p>Cela permet &eacute;galement la v&eacute;rification des liens synonymiques et antonymiques : soit la relation synonymique est une erreur (<em>en-tout-cas</em> adv. &eacute;tait synonyme de <em>parapluie</em> subst. masc. par erreur) soit il manque une cat&eacute;gorie grammaticale &agrave; l&rsquo;un des 2 mots ( <em>fier</em> &eacute;tait enregistr&eacute; comme verbe uniquement alors qu&rsquo;il est synonyme de <em>fort, hautain, noble</em>,. . . en tant qu&rsquo;adjectif).</p> </li> <li> <p>Il est ainsi plus facile de rep&eacute;rer les acceptions. Dans le TLFi, un mot qui a plusieurs acceptions se traduit par plusieurs onglets car les sens sont disjoints (par exemple pour <em>canon</em>, <em>un tir de canon</em> n&rsquo;a aucun rapport avec le <em>droit canon</em>). Lorsque les diff&eacute;rents sens d&rsquo;un mot d&eacute;coulent les uns des autres, il n&rsquo;y aura qu&rsquo;une seule entr&eacute;e (le verbe <em>gagner</em> a une seule entr&eacute;e avec diff&eacute;rents sens&nbsp;: <em>acqu&eacute;rir quelque chose</em> mais aussi <em>m&eacute;riter une r&eacute;compense</em> ou encore <em>gagner le large, partir</em> ...). Il faut noter toutefois que les dictionnaires divergent sur la notion d&rsquo;acception. Nous avons gard&eacute; dans notre base cette information d&rsquo;acception des entr&eacute;es telle qu&rsquo;utilis&eacute;e dans le TLFi.</p> </li> <li> <p>l&#39;affichage &agrave; terme dans l&#39;interface publique de la ou des cat&eacute;gories grammaticales de la vedette facilitera la compr&eacute;hension et l&#39;apprentissage du fran&ccedil;ais</p> </li> </ul> <h2>Objectifs</h2> <p>La base de donn&eacute;es est quasiment rest&eacute;e identique depuis sa cr&eacute;ation d&eacute;but des ann&eacute;es 2000, &agrave; l&rsquo;exception de l&rsquo;ajout d&rsquo;une date d&rsquo;insertion/modification dans les tables en 2018-2019.</p> <p>Les informations enregistr&eacute;es sont assez simples comme nous pouvons le voir dans les tableaux ci-dessous&nbsp;: la table des graphies avec les entr&eacute;es et leur identifiants, la table des synonymes avec les identifiants des entr&eacute;es synonymiques et la table des antonymes avec les identifiants des entr&eacute;es antonymiques.</p> <p><img alt="table des graphies" src="https://www.numerev.com/img/ck_3267_32_image-20240402145234-1.png" style="width: 648px; height: 203px;" /></p> <p><img alt="table des synonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145242-2.png" style="width: 649px; height: 295px;" /></p> <p><img alt="table des antonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145318-3.png" style="width: 649px; height: 151px;" /></p> <p>M&eacute;moriser la cat&eacute;gorie grammaticale a souvent &eacute;t&eacute; un sujet r&eacute;current au CRISCO sans avoir, jusqu&rsquo;&agrave; pr&eacute;sent, trouv&eacute; les sources ad&eacute;quates.</p> <p>Travailler sur un autre projet en relation avec l&rsquo;ATILF (<a href="https://crisco.unicaen.fr/projet-de-modelisation-graphique-de-la-polysemie-evolutive/">la polys&eacute;mie &eacute;volutive</a>) a &eacute;t&eacute; l&rsquo;occasion d&rsquo;utiliser leurs sources pour concr&eacute;tiser ce projet.</p> <p>Nous avons d&eacute;cid&eacute; en accord avec l&rsquo;ATILF d&rsquo;utiliser leurs fichiers afin de m&eacute;moriser dans la table des graphies (en ajoutant un nouveau champ intitul&eacute; &laquo;&nbsp;nature&nbsp;&raquo;) les diff&eacute;rentes cat&eacute;gories grammaticales.</p> <h2>M&eacute;thode de constitution et/ou sources</h2> <p>Trois sources diff&eacute;rentes sous forme de fichiers en provenance de l&rsquo;ATILF ont &eacute;t&eacute; utilis&eacute;es (source 1a, source2a et source2b).</p> <p>Une source (source 1b) est issue de la librairie Spacy utilis&eacute;e avec le langage Python.</p> <p>Les sources 1a et 1b ont &eacute;t&eacute; utilis&eacute;es dans la premi&egrave;re &eacute;tape de traitement (de janvier 2022 &agrave; novembre 2022), les sources 2a et 2b dans la seconde &eacute;tape de traitement (de juin 2023 &agrave; novembre 2023).</p> <h3>Source 1a</h3> <p>La source1a est un fichier tableur intitul&eacute; TLFI complet lemmes.xls de 54.280 lignes dont un extrait est pr&eacute;sent&eacute; dans la table ci-dessous.<img src="https://www.numerev.com/img/ck_3267_32_image-20240408163801-1.png" style="width: 600px; height: 420px;" /></p> <p>Nous voyons que la seule colonne commune &agrave; toutes les lignes est la premi&egrave;re avec le libell&eacute; de la graphie avec toutefois deux remarques importantes&nbsp;:</p> <ul> <li> <p>la m&ecirc;me graphie est parfois r&eacute;p&eacute;t&eacute;e et incr&eacute;ment&eacute;e d&rsquo;un num&eacute;ro (Ex&nbsp;: MEUBLE1,2 ou 3).</p> </li> <li> <p>des parenth&egrave;ses sont pr&eacute;sentes, signalant des orthographes diff&eacute;rentes autoris&eacute;es</p> </li> </ul> <p>Ensuite, les lignes les plus simples sont celles avec uniquement une seconde colonne contenant la cat&eacute;gorie grammaticale.</p> <p>D&rsquo;autres lignes ont plusieurs colonnes avec des cat&eacute;gories grammaticales diff&eacute;rentes, ou bien des extensions f&eacute;minines (-AINE, -EUSE,etc.).</p> <h3>Source 1b</h3> <p>La librairie <a href="https://spacy.io/models/fr">fr_dep_news_trf</a> est un pipeline de transformateurs fran&ccedil;ais qui contient un ensemble de composants : morphologiseur, analyseur syntaxique, r&eacute;gleur d&rsquo;attributs, lemmatiseur,..</p> <p>L&rsquo;entra&icirc;nement a &eacute;t&eacute; r&eacute;alis&eacute; sur des donn&eacute;es provenant de trois sources :</p> <p>&mdash; <a href="https://github.com/UniversalDependencies/UD_French-Sequoia">UD_FrenchSequoia</a> qui est une conversion automatique du corpus fran&ccedil;ais <a href="http://deep-sequoia.inria.fr/">Sequoia (French Sequoia corpus)</a>.</p> <p>&mdash; Le <a href="https://huggingface.co/almanach/camembert-base">mod&egrave;le camembert-base</a> bas&eacute; sur le <a href="https://huggingface.co/FacebookAI/roberta-base">mod&egrave;le RoBERTa</a>. Il a &eacute;t&eacute; entra&icirc;n&eacute; sur le corpus <a href="https://oscar-project.org/">OSCAR</a> (Open Super-large Crawled Aggregated coRpus)</p> <p>&mdash; Des fichiers additionnels : <a href="https://github.com/explosion/spacy-lookups-data">spaCy lookups data</a></p> <p>La premi&egrave;re source provient de l&rsquo;INRIA. Elle contient 3,099 phrases fran&ccedil;aises de Europarl (parlement europ&eacute;en), du magazine Est Republicain, du Wikipedia fran&ccedil;ais et de l&rsquo;agence europ&eacute;enne de m&eacute;decine. Le manuel d&rsquo;annotations est disponible <a href="https://gitlab.inria.fr/sequoia/deep-sequoia/-/blob/master/tags/sequoia-9.2/README-distrib.md">en ligne </a>.</p> <p>Le composant qui nous int&eacute;resse est celui qui va associer une cat&eacute;gorie grammaticale aux mots. En linguistique, l&rsquo;&eacute;tiquetage morpho-syntaxique, aussi appel&eacute; &eacute;tiquetage grammatical ou <a href="https://fr.wikipedia.org/wiki/%C3%89tiquetage_morpho-syntaxique">POS tagging (part-of-speech tagging)</a> est le processus qui consiste &agrave; associer aux mots d&rsquo;un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. &agrave; l&rsquo;aide d&rsquo;un outil informatique.</p> <h3>Source 2a</h3> <p>Dans le cadre du <a href="https://crisco.unicaen.fr/projet-de-modelisation-graphique-de-la-polysemie-evolutive/">projet de mod&eacute;lisation graphique des notices historiques du TLFi</a>, un programme a &eacute;t&eacute; cr&eacute;&eacute; pour extraire les donn&eacute;es de 81 fichiers XML de l&rsquo;ATILF et les enregistrer au format excel (xlsx). Nous sommes donc partis de ces 81 fichiers tableurs de ce projet pour en cr&eacute;er un unique de 49.854 lignes dont un extrait est donn&eacute; ci-dessous.</p> <table border="1" cellpadding="1" cellspacing="1" style="width:500px;"> <thead> <tr> <th scope="col">Entr&eacute;e</th> <th scope="col">Cat&eacute;gorie grammaticale</th> </tr> </thead> <tbody> <tr> <td>absorber</td> <td>verbe trans.</td> </tr> <tr> <td>accenteur, accentueur</td> <td>subst. masc.</td> </tr> <tr> <td>despote</td> <td>subst. masc. et adj.</td> </tr> <tr> <td>d&eacute;termin&eacute;, &eacute;e</td> <td>part. pass&eacute;, adj. et subst. masc.</td> </tr> <tr> <td>d&ucirc;, due</td> <td>part. pass&eacute;, adj. et subst. masc. sing.</td> </tr> <tr> <td>narquois, -oise</td> <td>adj. et subst. masc.</td> </tr> <tr> <td>n&#39;est-ce pas</td> <td>loc. inv.</td> </tr> <tr> <td>neuf1</td> <td>adj. et subst. masc. inv.</td> </tr> <tr> <td>neuf2, neuve</td> <td>adj. et subst. masc.</td> </tr> </tbody> </table> <h3>Source 2b</h3> <p>Ce fichier plus r&eacute;cent de l&rsquo;ATILF contient 103.328 lignes. Il est constitu&eacute; de six colonnes : articleID, parentID, source, content, category, gender, feminine. La table ci-dessous donne quelques exemples d&rsquo;entr&eacute;es.</p> <p><img src="https://www.numerev.com/img/ck_3267_32_image-20240408170115-4.png" style="width: 600px; height: 140px;" /></p> <p>On remarque que certaines entr&eacute;es (colonne content) sont pr&eacute;sentes sur plusieurs lignes, probablement li&eacute;es &agrave; la notion d&rsquo;acception. Cette notion d&rsquo;acceptions est g&eacute;r&eacute;e diff&eacute;remment suivant les dictionnaires. Par exemple, pour <em>accus&eacute;</em>, le Grand Robert le pr&eacute;sente sur une page en tant que nom et adjectif alors que le TLFi sur <a href="https://www.cnrtl.fr/lexicographie/accusé">deux diff&eacute;rentes</a>.</p> <h2>M&eacute;thodologie</h2> <p>Les diff&eacute;rentes &eacute;tapes sont synth&eacute;tis&eacute;es dans le tableau ci-dessous et r&eacute;sum&eacute;es dans l&#39;ordre chronologique. Elles sont d&eacute;taill&eacute;es dans le document de travail <sup><a href="#halshs-03956407">1</a></sup>.</p> <h3><img height="628" src="https://www.numerev.com/img/ck_3267_32_image-20240905104900-1.png" width="1996" /></h3> <h3>Premi&egrave;re &eacute;tape de janvier &agrave; novembre 2022</h3> <h4>Traitement de la source 1a</h4> <p>Comme d&eacute;taill&eacute; dans le document de travail, plusieurs &eacute;tapes de traitements s&rsquo;imposaient.</p> <p>Tout d&rsquo;abord, nous avons trait&eacute; les entr&eacute;es&nbsp;selon les cat&eacute;gories grammaticales&nbsp;: les verbes (6981, trait&eacute;s), les adjectifs (4641), les substantifs (28.588), les adverbes (943).</p> <p><b>Il faut signaler &agrave; ce moment une d&eacute;cision importante</b>&nbsp;: Une entr&eacute;e pr&eacute;sente sur plusieurs lignes finissant par des chiffres (comme MEUBLE ) est consid&eacute;r&eacute;e comme une acception c&rsquo;est-&agrave;-dire ayant plusieurs sens ou plusieurs origines &eacute;tymologiques. <strong>Les codes grammaticaux associ&eacute;s ont donc &eacute;t&eacute; s&eacute;par&eacute;s par un point virgule</strong>, de fa&ccedil;on &agrave; les diff&eacute;rencier des codes grammaticaux sur une seule ligne.</p> <p>Par exemple, le champ <i>nature</i> de l&rsquo;entr&eacute;e MEUBLE dans le D&Eacute;S est <i>subst. masc.;adj. et subst.;adj.</i></p> <p>Cela correspondant &agrave;</p> <ul> <li> <p><em>bien immobilier </em>(subst. masc.),</p> </li> <li> <p><em>Qui se laboure ou se travaille facilement</em> (adj.) et</p> </li> <li> <p><em>Qui peut &ecirc;tre transport&eacute; d&#39;un lieu &agrave; un autre sans subir de d&eacute;t&eacute;rioration</em> (adj. et subst.)</p> </li> </ul> <p>Ces &eacute;tapes ont permis de renseigner 50&nbsp;% (25.383 sur 50.350) de la base du DES.</p> <p>Ensuite, nous avons proc&eacute;d&eacute; &agrave; 3 traitements particuliers selon l&rsquo;extension f&eacute;minine en seconde colonne&nbsp;:</p> <ol> <li> <p><em>-acte, -aine, -ainte, -aise, -aite, -ale, -als, -aux, -ande, -ane, -anne, -ante, -apse, -arde, -ate, -aude, -aux, -close, -cuite, -dite, -douce, -dure, -ecte, -ienne, -&eacute;e, -&eacute;enne, -&eacute;es, -elle, -ende, -enne, -ente, -&egrave;re, -&egrave;te, -ette, -eule, -eure et -euse.</em></p> </li> <li> <p><em>-ails, -faite, -fine, -haute, -ie, -ielle, -ienne, -i&egrave;re, -ile, -ille, -incte, -ine, -ique, -ise, -isse, -ite, -ive, -oise, -onne, -onde, -one, -ote, -otte, -oue, -trice, -ue, -une, -use, aine, ainte, aisceau, aise, aisse, aite, ante, arde, aux, ecte, &eacute;e, &eacute;enne, elle, ente, &egrave;re, erse, erte, &egrave;te, ette, euse, ie, ienne, oise, onne, trice.</em></p> </li> <li> <p><em>ale, ande, ane, ate, aude, euse, iale, ienne, i&egrave;re, ieuse, ile, ine, ite, ive, orse, ose, ote, otte, ouse, oute, ue, une, ure, use, ute</em></p> </li> </ol> <p>Les 2 traitements suivants ont demand&eacute; un travail manuel plus important. Nous avons trait&eacute; 2619 d&rsquo;entr&eacute;es avec des orthographes diff&eacute;rentes, les mots invariants, les pr&eacute;positions, les interjections, les onomatop&eacute;es en &eacute;cartant les entr&eacute;es de type &laquo;&nbsp;&eacute;l&eacute;ment formant&nbsp;&raquo; (<em>nyct-, oculi-, hodo-,..</em>).</p> <p>Puis enfin 1551 entr&eacute;es de type locution &agrave; reformater pour &ecirc;tre ins&eacute;r&eacute;s automatiquement (par exemple&nbsp;: CATIMINI (EN) &rarr; en catimini, CONTREBORD (&Agrave;) &rarr; &agrave; contrebord)</p> <p>La proc&eacute;dure pour ces cinq traitements est d&eacute;taill&eacute;e dans les paragraphes &laquo;&nbsp;Introduire une premi&egrave;re cat&eacute;gorie de mots m&eacute;lang&eacute;s&nbsp;&raquo; jusqu&rsquo;&agrave; &laquo;&nbsp;Introduire une cinqui&egrave;me cat&eacute;gorie de mots m&eacute;lang&eacute;s&nbsp;&raquo; du document de travail <a href="#halshs-03956407">1</a>.</p> <h4>Traitement manuel sans source</h4> <p>Le traitement suivant est issu d&rsquo;une constatation simple : parmi les 17.463 entr&eacute;es dont la cat&eacute;gorie grammaticale n&#39;est pas renseign&eacute;e,&nbsp; 1.411 d&rsquo;entre elles commencent par <i>s&rsquo;</i> ou <i>se</i> s&rsquo;av&egrave;rent &ecirc;tre des verbes.</p> <h4>Traitement de la source 1b</h4> <p>A partir des 16.052 entr&eacute;es dans le DES qui n&rsquo;ont pas de cat&eacute;gories grammaticales, nous avons gard&eacute;es celles sans aucun espace soit 10.139&nbsp;pour lesquelles la librairie Spacy apportait une r&eacute;ponse sur le code grammatical.</p> <p>Ce r&eacute;sultat a &eacute;t&eacute; trait&eacute; selon les cat&eacute;gories &nbsp;:</p> <ul> <li> <p>Tout d&rsquo;abord 588 entr&eacute;es se terminant par <i>-er </i>et <i>-ir</i> avec le code &laquo;&nbsp;POS VERB&nbsp;&raquo; ont &eacute;t&eacute; v&eacute;rifi&eacute;es. Quelques corrections ont &eacute;t&eacute; r&eacute;alis&eacute;es comme <i>d&eacute;crottoir, d&eacute;birentier ou parmentier</i>.</p> </li> <li> <p>Ensuite, nous corrigons les entr&eacute;es finissant par &nbsp;<i>&eacute;</i>&nbsp; consid&eacute;r&eacute;es &agrave; tort comme verbe et que nous avons not&eacute; comme participe pass&eacute;. Puis les entr&eacute;es avec le code PROPN ( noms propres), PUNCT (ponctuations) ont &eacute;t&eacute; corrig&eacute;es manuellement. Enfin celles avec le code NOUN et ADJ ont &eacute;t&eacute; sommairement v&eacute;rifi&eacute;es. Cela concerne un total de 951 lignes.</p> </li> <li> <p>Puis nous avons pris en compte les entr&eacute;es avec des tirets et des apostrophes, nous r&eacute;cup&eacute;rons ainsi 328 verbes commen&ccedil;ant par &nbsp;<i>s&rsquo;</i>&nbsp;, 404 adverbes et 275 substantifs finissant par <i>-ment</i>.</p> </li> <li> <p>Pour les entr&eacute;es commen&ccedil;ant par &nbsp;<i>&agrave;</i>&nbsp;, nous avons consid&eacute;r&eacute; que toute expression commencant ainsi est consid&eacute;r&eacute;e comme adjectif si elle figure &agrave; droite d&rsquo;un substantif (<i>un projet &agrave; bas co&ucirc;t</i>) ou comme adverbe &agrave; droite d&rsquo;un verbe ou d&rsquo;un participe (<i>poursuivre un projet &agrave; marche forc&eacute;e ; &eacute;valuer un co&ucirc;t &agrave; la louche</i>). Depuis quelques d&eacute;cennies on emploie les codes adj. et adv. comme des cat&eacute;gories fonctionnelles au-del&agrave; de leur d&eacute;finition morphologique classique. Nous avons choisi de tout &eacute;tiqueter en adverbe et celles pr&eacute;sent&eacute;es sur la <a href="https://fr.wiktionary.org/wiki/Cat%C3%A9gorie:Locutions_adjectivales_en_fran%C3%A7ais">page wiktionary des locutions adjectivales en fran&ccedil;ais</a> ont &eacute;t&eacute; corrig&eacute;es.</p> </li> <li> <p>La v&eacute;rification de 4608 entr&eacute;es retourn&eacute;es par Spacy comme &eacute;tant &laquo;&nbsp;NOUN&nbsp;&raquo;&nbsp;:</p> <ul> <li> <p>200 d&rsquo;entre elles se terminant par <i>er, ir </i>et <i>dre </i>ont &eacute;t&eacute; v&eacute;rifi&eacute;es&nbsp;: 32 &eacute;taient des verbes.</p> </li> <li> <p>la v&eacute;rification de 534 entr&eacute;es se terminant par -<i>eur, -ire</i> et <i>-oir</i> n&rsquo;a d&eacute;cel&eacute; qu&rsquo;une erreur (<i>stup&eacute;faire&nbsp;</i>: verbe)</p> </li> <li> <p>les entr&eacute;es restantes sont rest&eacute;es des substantifs.</p> </li> </ul> </li> </ul> <h4>Traitement manuel sans source</h4> <p>Les 8488 entr&eacute;e du DES sans cat&eacute;gorie grammaticale ont &eacute;t&eacute; v&eacute;rifi&eacute;es par plusieurs personnes selon plusieurs types de filtrage d&eacute;taill&eacute;s dans le document de travail sus-cit&eacute; <a href="#halshs-03956407">1</a>.</p> <h4>V&eacute;rifications</h4> <p>Il nous a sembl&eacute; int&eacute;ressant de mettre en place des tests pouvant potentiellement faire appara&icirc;tre des incoh&eacute;rences. Par exemple, si une entr&eacute;e de type verbe sans &ecirc;tre substantif, ni adjectif, ni adverbe, ni locution, est synonyme d&rsquo;une entr&eacute;e qui n&rsquo;est ni un verbe, ni un adverbe ni une locution, alors une v&eacute;rification s&rsquo;imposait. L&rsquo;ensemble des tests est donn&eacute; dans la table 9 du document de travail.</p> <p>250 entr&eacute;es ont &eacute;t&eacute; corrig&eacute;es.</p> <h3>Seconde phase de juin &agrave; novembre 2023</h3> <p>Cette seconde phase a permis, non pas de renseigner les cat&eacute;gories grammaticales des entr&eacute;es du DES puisqu&rsquo;elles l&rsquo;&eacute;taient toutes, mais plut&ocirc;t de comparer le DES avec ces deux sources afin de corriger et de compl&eacute;ter les cat&eacute;gories grammaticales.</p> <h4>Traitement de la source 2a</h4> <p>Nous avons cherch&eacute; tout d&rsquo;abord &agrave; calculer des indicateurs g&eacute;n&eacute;raux pour comparer les 2 sources&nbsp;:</p> <p>&mdash; Nombre entr&eacute;es dans le D&Eacute;S : 50.420</p> <p>&mdash; Nombre entr&eacute;es dans le TLFi : 49.854</p> <p>&mdash; Nombre d&rsquo;entr&eacute;es en commun D&Eacute;S- TLFi : 24.210</p> <p>&mdash; Nombre d&rsquo;entr&eacute;es en commun avec la m&ecirc;me cat&eacute;gorie grammaticale (code 1) : 23.548</p> <p>&mdash; Nombre d&rsquo;entr&eacute;es en commun avec les cat&eacute;gories grammaticales du D&Eacute;S incluses dans TLFI (code 2) : 449</p> <p>&mdash; Nombre d&rsquo;entr&eacute;es en commun avec les cat&eacute;gories grammaticales du D&Eacute;S diff&eacute;rentes du TLFI (code 3) : 213</p> <p>&mdash; Nombre d&rsquo;entr&eacute;es dans le D&Eacute;S absentes du TLFi (code 4) : 26.209</p> <p>&mdash; Nombre d&rsquo;entr&eacute;es dans le TLFi absentes du D&Eacute;S (code 5) : 25.644</p> <p>Suite au traitement des entr&eacute;es diff&eacute;rentes selon les codes 2 et 3, nous avons conclu que&nbsp; les cat&eacute;gories grammaticales de :</p> <p>- 91 entr&eacute;es (code 2) et 120 (code 3) &eacute;taient &agrave; corriger manuellement</p> <p>- 358 entr&eacute;es (code 2) &eacute;taient du &agrave; une codification diff&eacute;rentes pour les verbes</p> <p>- 93 entr&eacute;es (code3) &eacute;taient du &agrave; des inversions (par exemple, &quot;adj. et subst.&quot; d&rsquo;un cot&eacute; et &quot;subst. et adj.&quot; de l&rsquo;autre)</p> <h4>Traitement de la source 2b</h4> <p>Nous avons comme pour la source pr&eacute;c&eacute;dente calcul&eacute; des indicateurs&nbsp;:</p> <p>- Nombre d&rsquo;entr&eacute;es dans le TLFi2 : 103.328</p> <p>- Nombre d&rsquo;entr&eacute;es uniques dans le TLFi2 : 89.392</p> <p>- Nombre d&rsquo;entr&eacute;es en commun D&Eacute;S- TLFi2 : 37.427</p> <p>- Nombre d&rsquo;entr&eacute;es dans le D&Eacute;S absentes du TLFi2 : 13.007</p> <p>- Nombre d&rsquo;entr&eacute;es dans le TLFi2 absentes du D&Eacute;S : 51.965</p> <p>Sur le 37.427 entr&eacute;es communes, nous avons r&eacute;alis&eacute; un traitement pour ne retenir que les entr&eacute;es &agrave; v&eacute;rifier.</p> <p>L&rsquo;algorithme du traitement est le suivant&nbsp;:</p> <p><img src="https://www.numerev.com/img/ck_3267_32_image-20240411145830-1.png" style="width: 600px; height: 297px;" /></p> <p>Les 336 entr&eacute;es pour lesquelles la colonne &laquo;&nbsp;ok&nbsp;?&nbsp;&raquo; est &agrave; False ont &eacute;t&eacute; v&eacute;rifi&eacute;es manuellement et corrig&eacute;es dans la base du DES.</p> <h4>V&eacute;rifications</h4> <p>Pour ces derni&egrave;res v&eacute;rifications, nous sommes repartis sur une r&egrave;gle simple&nbsp;: pour deux mots synonymes, mot1 et mot2, si une des cat&eacute;gories grammaticales de l&rsquo;un est pr&eacute;sente dans l&rsquo;autre, alors nous n&rsquo;effectuons pas de v&eacute;rification.</p> <p>Cela donnait toutefois 5.828 lignes &agrave; revoir, ce qui &eacute;tait impossible &agrave; v&eacute;rifier &agrave; la main. Nous avons donc exclu des liaisons qui v&eacute;rifiaient les crit&egrave;res des tables 14 et 15 du document de travail.</p> <p>Les 725 lignes restantes ont &eacute;t&eacute; v&eacute;rifi&eacute;es manuellement (Voir le <a href="https://git.unicaen.fr/crisco-des-public/descatgram/-/blob/master/CatGramErreursAcceptionsRecup_2023-07-13.csv">fichier CatGramErreursAcceptionsRecup_2023-07-13.csv</a> sur le git).</p> <h2>Pr&eacute;sentation du contenu et de l&rsquo;organisation du jeu de donn&eacute;es</h2> <p>Le champ <i>nature</i> des 50.000 entr&eacute;es du D&Eacute;S est renseign&eacute; avec une des 476 combinaisons de codes grammaticaux enregistr&eacute;s. L&rsquo;ensemble de ses combinaisons est pr&eacute;sent sur le git public (<a href="https://git.unicaen.fr/crisco-des-public/descatgram/-/blob/master/catgram_20240411.csv?ref_type=heads">https://git.unicaen.fr/crisco-des-public/descatgram/-/blob/master/catgram_20240411.csv</a>). La table ci-dessous en donne un extrait&nbsp;:</p> <p><img src="https://www.numerev.com/img/ck_3267_32_image-20240411150008-2.png" style="width: 600px; height: 460px;" /></p> <h2>Modalit&eacute;s d&rsquo;acc&egrave;s aux donn&eacute;es</h2> <p>L&rsquo;ensemble des donn&eacute;es du D&Eacute;S sont t&eacute;l&eacute;chargeables sur la plate-forme<a href="https://www.ortolang.fr/fr/accueil/" target="_blank"> ORTOLANG</a> pour la communaut&eacute; scientifique (authentification requise) et il existe un git public <a href="#halshs-03956407">1</a>.</p> <h1>L&rsquo;exploitation des donn&eacute;es&nbsp;: analyse et interpr&eacute;tations</h1> <p>L&rsquo;ajout de cette information suppl&eacute;mentaire va permettre de filtrer selon&nbsp;:</p> <p>- les cat&eacute;gories grammaticales</p> <p>- les entr&eacute;es ayant plusieurs sens par la pr&eacute;sence d&rsquo;un point virgule s&eacute;parant les codes (acceptions)</p> <p>- de faciliter des recherches sp&eacute;ciales comme les entr&eacute;es &eacute;tant &agrave; la fois verbe et substantifs ou toutes les locutions, etc...</p> <h1>Perspectives de r&eacute;utilisation</h1> <p>L&rsquo;ajout de la cat&eacute;gorie grammaticale apporte plusieurs b&eacute;n&eacute;fices :</p> <p>Tout d&rsquo;abord, dans le domaine de recherche d&eacute;velopp&eacute;e au CRISCO sur les graphes, il sera possible d&rsquo;affiner des extractions afin d&rsquo;initier ou de poursuivre des recherches <a href="#halshs-00666584">7 </a>et <a href="#hal-04526033">8</a>.</p> <p>De plus, les donn&eacute;es, &eacute;tant d&eacute;pos&eacute;s avec la licence Creative Commons sur la plate-forme ORTOLANG, peuvent &ecirc;tre utilis&eacute;es dans d&rsquo;autres domaines de recherche&nbsp;: le d&eacute;p&ocirc;t r&eacute;alis&eacute; en novembre 2022 a &eacute;t&eacute; consult&eacute; plusieurs centaines de fois et t&eacute;l&eacute;charg&eacute; plus d&rsquo;une centaine de fois.</p> <p>Il est aussi possible d&rsquo;envisager la comparaison de cette base avec d&rsquo;autres lexiques comme par exemple le <a href="http://www.ortolang.fr/market/lexicons/lexical-system-fr/v1" target="_blank">R&eacute;seau lexical du </a><a href="http://www.ortolang.fr/market/lexicons/lexical-system-fr/v1" target="_blank">Fran&ccedil;ais </a>ou <a href="https://www.ortolang.fr/market/lexicons/holinet-1-0" target="_blank">Holinet</a> (ajouter liens)</p> <p>Enfin, la possibilit&eacute; de l&rsquo;afficher dans l&rsquo;<a href="https://crisco4.unicaen.fr/des" target="_blank">interface graphique d&rsquo;interrogation du D&Eacute;S</a> facilitera l&rsquo;apprentissage des apprenants.</p> <p><a href="#" name="halshs-03956407">1 </a>- Laurette Chardon. Insertion des cat&eacute;gories grammaticales dans le Dictionnaire &Eacute;lectronique des Synonymes (DES) -Document de travail. 2024. <a href="https://shs.hal.science/halshs-03956407v2" target="_blank">&lang;halshs-03956407v2&rang;</a> et le d&eacute;p&ocirc;t git <a href="https://git.unicaen.fr/crisco-des-public/descatgram" target="_blank">https://git.unicaen.fr/crisco-des-public/descatgram</a></p> <p><a href="#" name="halshs-03155459">2</a>- Laurette Chardon. L&rsquo;espace s&eacute;mantique du &quot;Dictionnaire &eacute;lectronique des synonymes&quot; (DES) et les m&eacute;thodes de regroupement de sens : l&rsquo;exemple de &quot;sec&quot;. <i>Syntaxe et S&eacute;mantique</i>, 2020, Synonymie, polys&eacute;mie et questions de s&eacute;mantique lexicale, 1 (21), pp.87-126. <a href="https://dx.doi.org/10.3917/ss.021.0087" target="_blank">&lang;10.3917/ss.021.0087&rang;</a>. <a href="https://shs.hal.science/halshs-03155459" target="_blank">&lang;halshs-03155459&rang;</a></p> <p><a href="#" name="halshs-00009433">3</a> - Sabine Ploux, Bernard Victorri. Construction d&#39;espaces s&eacute;mantiques &agrave; l&#39;aide de dictionnaires de synonymes. <i>Revue TAL : traitement automatique des langues</i>, 1998, 39, pp.161-182. <a href="https://shs.hal.science/halshs-00009433" target="_blank">&lang;halshs-00009433&rang;</a></p> <p><a href="#" name="hal-02430301">4 </a>- Sabine Ploux. Traitement des synonymes. [Rapport de recherche] CNRS; Universit&eacute; de Caen (France). 1995. <a href="https://hal.science/hal-02430301" target="_blank">&lang;hal-02430301&rang;</a></p> <p><a href="#" name="hal-02430342">5</a> - Sabine Ploux. Une &eacute;tude pour le traitement informatique de la synonymie. 1996. <a href="https://hal.science/hal-02430342" target="_blank">&lang;hal-02430342&rang;</a></p> <p><a href="#" name="hal-04520029">6 </a>- Bernard Victorri, Jean-Luc Manguin. Repr&eacute;sentation g&eacute;om&eacute;trique d&#39;un paradigme lexical. <i>Conf&eacute;rence TALN 1999</i>, Jul 1999, Cargese (Corse), France. <a href="https://hal.science/hal-04520029" target="_blank">&lang;hal-04520029&rang;</a></p> <p><a href="#" name="halshs-00666584">7 </a>- Comme cette &eacute;tude sur les verbes : Bernard Victorri. Quand les mots s&#39;organisent en r&eacute;seaux. <i>L&rsquo;Archicube </i>, 2010, 8, pp.53-59. <a href="https://shs.hal.science/halshs-00666584" target="_blank">&lang;halshs-00666584&rang;</a></p> <p><span style="font-style:normal"><span style="font-weight:normal"><span style="text-decoration:none"><font color="#000000"><font face="Liberation Serif, serif"><font size="3"><font style="font-size:12pt"><span style="text-decoration:none"><a href="#" name="hal-04526033">8</a> - Comme cette &eacute;tude sur les adjectifs : </span></font></font></font></font></span></span></span>Fabienne Venant. REPR&Eacute;SENTATION ET CALCUL DYNAMIQUE DU SENS. <a href="https://my.editions-ue.com/catalog/details/store/de/book/978-613-1-53887-2/representation-et-calcul-dynamique-du-sens?search=Repr%C3%A9sentation%20et%20calcul%20dynamique%20du%20sens" target="_blank">&eacute;ditions universitaires europ&eacute;ennes</a>, Linguistique g&eacute;n&eacute;rale et compar&eacute;e, 236p, 2010, 978-613-1-53887-2. <a href="https://hal.science/hal-04526033" target="_blank">&lang;hal-04526033&rang;</a></p>