<h2>Introduction</h2> <p>Le <a href="https://crisco4.unicaen.fr/des" target="_blank">Dictionnaire &eacute;lectronique des synonymes du CRISCO (D&Eacute;S)</a> contient aujourd&rsquo;hui plus de 50 000 entr&eacute;es, 209 000 relations synonymiques et 32.000 liaisons antonymiques. La base de d&eacute;part concernant les synonymes a &eacute;t&eacute; constitu&eacute;e &agrave; partir de sept dictionnaires classiques. Un premier travail, r&eacute;alis&eacute; par l&rsquo;INALF (Institut National de la Langue Fran&ccedil;aise), a permis d&rsquo;en extraire les relations synonymiques. Le laboratoire ELSAP, qui est devenu par la suite le CRISCO, a ensuite concat&eacute;n&eacute;, homog&eacute;n&eacute;is&eacute; et sym&eacute;tris&eacute; les donn&eacute;es. Depuis 1994, un important travail de correction se perp&eacute;tue par l&rsquo;ajout ou la suppression de liens synonymiques et antonymiques.</p> <p>Apr&egrave;s livraison des donn&eacute;es de l&rsquo;INALF, ce projet a d&eacute;marr&eacute; sous la responsabilit&eacute; de Bernard VICTORRI, directeur de recherche, et Sabine PLOUX, ing&eacute;nieure de recherche, qui ont d&eacute;fini et mis au point les principes de fonctionnement du dictionnaire : union des diff&eacute;rentes ressources, sym&eacute;trisation (g&eacute;n&eacute;rant plus de 50 % de relations suppl&eacute;mentaires), algorithme de calcul des cliques. La repr&eacute;sentation spatiale de l&rsquo;espace s&eacute;mantique et sa projection sur un plan par calcul matriciel ont &eacute;galement &eacute;t&eacute; con&ccedil;ues et r&eacute;alis&eacute;es.</p> <p>De nombreuses personnes sont intervenues, depuis, &agrave; la fois pour des corrections, la maintenance et des am&eacute;liorations (voir la rubrique Historique sur la <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">page de pr&eacute;sentation du site web</a>) parmi lesquelles Jean-Luc Manguin Michel Morel et Laurette Chardon, ing&eacute;nieurs successifs en charge du projet.</p> <p>Les deux principes de base du DES est la <b>sym&eacute;trisation</b> et la <b>contextualisation</b>&nbsp;: un mot A peut &ecirc;tre remplac&eacute; par un mot B dans un contexte donn&eacute;, sans modification significative du sens. Comme exemples, nous avons :</p> <ul> <li> <p>Les enfants jouent / s&rsquo;amusent dans la cour.</p> </li> <li> <p>Marie joue/imite/simule Andromaque.</p> </li> <li> <p>Un vin &acirc;cre/&acirc;pre/vert.</p> </li> <li> <p>Des mots crus/verts</p> </li> </ul> <p>Depuis la mise en ligne sur internet au d&eacute;but des ann&eacute;es 2000&nbsp;:</p> <ul> <li> <p>le DES a continuellement &eacute;t&eacute; maintenu mensuellement par 3 ing&eacute;nieurs successifs&nbsp;: <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">les statistiques depuis 2017 disponibles sur le site web</a>) montrent que de 800 &agrave; 1200 propositions des internautes par an ont &eacute;t&eacute; v&eacute;rifi&eacute;es. Ajout&eacute;es aux propositions calcul&eacute;es ou d&eacute;duites et aux corrections r&eacute;alis&eacute;es, nous avons entre 1200 et 9900 corrections annuelles apport&eacute;es &agrave; la base de donn&eacute;es.</p> </li> <li> <p>le nombre de requ&ecirc;tes sur le DES a progressivement augment&eacute;. Actuellement, nous comptabilisons entre 150.000 et 200.000 requ&ecirc;tes par jour venant de 167 pays diff&eacute;rents,&nbsp; principalement d&rsquo;Europe et d&rsquo;Am&eacute;rique du Nord (Voir Laurette Chardon. Pr&eacute;sentation du Dictionnaire &Eacute;lectronique des Synonymes (DES). 2023. <a href="https://shs.hal.science/halshs-02489368v2" target="_blank">&lang;halshs-02489368v2&rang;)</a></p> </li> </ul> <h2>Objectifs</h2> <p>La base de donn&eacute;es est quasiment rest&eacute;e identique depuis sa cr&eacute;ation d&eacute;but des ann&eacute;es 2000, &agrave; l&rsquo;exception de l&rsquo;ajout d&rsquo;une date d&rsquo;insertion/modification dans les tables en 2018-2019.</p> <p>Les informations enregistr&eacute;es sont assez simples comme nous pouvons le voir dans les tableaux ci-dessous&nbsp;: la table des graphies avec les entr&eacute;es et leur identifiants, la table des synonymes avec les identifiants des entr&eacute;es synonymiques et la table des antonymes avec les identifiants des entr&eacute;es antonymiques.</p> <p><img alt="table des graphies" src="https://www.numerev.com/img/ck_3267_32_image-20240402145234-1.png" style="width: 648px; height: 203px;" /></p> <p><img alt="table des synonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145242-2.png" style="width: 649px; height: 295px;" /></p> <p><img alt="table des antonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145318-3.png" style="width: 649px; height: 151px;" /></p> <p>M&eacute;moriser la cat&eacute;gorie grammaticale a souvent &eacute;t&eacute; un sujet r&eacute;current au CRISCO sans avoir, jusqu&rsquo;&agrave; pr&eacute;sent, trouv&eacute; les sources correspondantes.</p> <p>Travailler sur un autre projet en relation avec l&rsquo;ATILF (la polys&eacute;mie &eacute;volutive&nbsp;: lien) a &eacute;t&eacute; l&rsquo;occasion d&rsquo;utiliser leurs sources pour concr&eacute;tiser ce projet.</p> <p>Nous avons d&eacute;cid&eacute; en accord avec l&rsquo;ATILF d&rsquo;utiliser leurs fichiers afin de m&eacute;moriser dans la table des graphies (en ajoutant un nouveau champ intitul&eacute; &laquo;&nbsp;nature&nbsp;&raquo;) les diff&eacute;rentes cat&eacute;gories grammaticales.</p> <h2>M&eacute;thode de constitution et/ou sources</h2> <p>Trois sources diff&eacute;rentes sous forme de fichiers en provenance de l&rsquo;ATILF ont &eacute;t&eacute; utilis&eacute;es (source 1a, source2a et source2b).</p> <p>Une source (source 1b) est issue de la librairie Spacy avec le langage Python</p> <p>Les sources 1a et 1b ont &eacute;t&eacute; utilis&eacute;es dans une premi&egrave;re grande &eacute;tape de traitement (de janvier 2022 &agrave; novembre 2022), les sources 2a et 2b dans une seconde &eacute;tape de traitement (de juin 2023 &agrave; novembre 2023).</p> <h3>Source 1a</h3> <p>La premi&egrave;re est un fichier tableur de 54.280 lignes dont un extrait est pr&eacute;sent&eacute; dans la table ci-dessous.<img src="https://www.numerev.com/img/ck_3267_32_image-20240408163801-1.png" style="width: 600px; height: 420px;" /></p> <p>Nous voyons que la seule colonne commune &agrave; toutes les lignes est la premi&egrave;re avec le libell&eacute; de la graphie avec toutefois deux remarques importantes&nbsp;:</p> <ul> <li> <p>la m&ecirc;me graphie est parfois r&eacute;p&eacute;t&eacute;e et incr&eacute;ment&eacute;e d&rsquo;un num&eacute;ro (Ex&nbsp;: MEUBLE1,2 ou 3).</p> </li> <li> <p>des parenth&egrave;ses sont pr&eacute;sentes, signalant des orthographes diff&eacute;rentes autoris&eacute;es</p> </li> </ul> <p>Ensuite, les lignes les plus simples sont celles avec uniquement une 2nde colonne contenant la cat&eacute;gorie grammaticale.</p> <p>D&rsquo;autres lignes ont plusieurs colonnes avec des cat&eacute;gories grammaticales diff&eacute;rentes, ou bien des extensions f&eacute;minines (-AINE, -EUSE,etc.).</p> <h3>Source 1b</h3> <p>La librairie <a href="https://spacy.io/models/fr">fr_dep_news_trf</a> est un pipeline de transformateurs fran&ccedil;ais qui contient un ensemble de composants : morphologiseur, analyseur syntaxique, r&eacute;gleur d&rsquo;attributs, lemmatiseur,..</p> <p>L&rsquo;entrainement a &eacute;t&eacute; r&eacute;alis&eacute; sur des donn&eacute;es provenant de trois sources :</p> <p>&mdash; <a href="https://github.com/UniversalDependencies/UD_French-Sequoia">UD_FrenchSequoia</a> qui est une conversion automatique du corpus fran&ccedil;ais <a href="http://deep-sequoia.inria.fr/">Sequoia (French Sequoia corpus)</a>.</p> <p>&mdash; Le <a href="https://huggingface.co/almanach/camembert-base">mod&egrave;le camembert-base</a> bas&eacute; sur le <a href="https://huggingface.co/FacebookAI/roberta-base">mod&egrave;le RoBERTa</a>. Il a &eacute;t&eacute; entrain&eacute; sur le corpus <a href="https://oscar-project.org/">OSCAR</a> (Open Super-large Crawled Aggregated coRpus)</p> <p>&mdash; Des fichiers additionnels : <a href="https://github.com/explosion/spacy-lookups-data">spaCy lookups data</a> f.</p> <p>La premi&egrave;re source provient de l&rsquo;INRIA. Elle contient 3,099 phrases fran&ccedil;aises de Europarl (parlement europ&eacute;en), du magazine Est Republicain, du Wikipedia fran&ccedil;ais et de l&rsquo;agence europ&eacute;enne de m&eacute;decine. Le manuel d&rsquo;annotations est disponible <a href="https://gitlab.inria.fr/sequoia/deep-sequoia/-/blob/master/tags/sequoia-9.2/README-distrib.md">en ligne </a>.</p> <p>Le composant qui nous int&eacute;resse est celui qui va associer une cat&eacute;gorie grammaticale aux mots restants. En linguistique, l&rsquo;&eacute;tiquetage morpho-syntaxique, aussi appel&eacute; &eacute;tiquetage grammatical ou <a href="https://fr.wikipedia.org/wiki/%C3%89tiquetage_morpho-syntaxique">POS tagging (part-of-speech tagging)</a> est le processus qui consiste &agrave; associer aux mots d&rsquo;un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. &agrave; l&rsquo;aide d&rsquo;un outil informatique.</p> <h3>Source 2a</h3> <p>Dans le cadre du <a href="https://crisco.unicaen.fr/projet-de-modelisation-graphique-de-la-polysemie-evolutive/">projet de mod&eacute;lisation graphique des notices historiques du TLFi</a>, un programme a &eacute;t&eacute; cr&eacute;&eacute; pour extraire les donn&eacute;es de 81 fichiers XML de l&rsquo;ATILF et les enregistrer au format excel (xlsx). Nous sommes donc partis de ces 81 fichiers tableurs de ce projet pour en cr&eacute;er un unique de 49.854 lignes dont un extrait est donn&eacute; ci-dessous.</p> <table border="1" cellpadding="1" cellspacing="1" style="width:500px;"> <thead> <tr> <th scope="col">Entr&eacute;e</th> <th scope="col">Cat&eacute;gorie grammaticale</th> </tr> </thead> <tbody> <tr> <td>absorber</td> <td>verbe trans.</td> </tr> <tr> <td>accenteur, accentueur</td> <td>subst. masc.</td> </tr> <tr> <td>despote</td> <td>subst. masc. et adj.</td> </tr> <tr> <td>d&eacute;termin&eacute;, &eacute;e</td> <td>part. pass&eacute;, adj. et subst. masc.</td> </tr> <tr> <td>d&ucirc;, due</td> <td>part. pass&eacute;, adj. et subst. masc. sing.</td> </tr> <tr> <td>narquois, -oise</td> <td>adj. et subst. masc.</td> </tr> <tr> <td>n&#39;est-ce pas</td> <td>loc. inv.</td> </tr> <tr> <td>neuf1</td> <td>adj. et subst. masc. inv.</td> </tr> <tr> <td>neuf2, neuve</td> <td>adj. et subst. masc.</td> </tr> </tbody> </table> <h3>Source 2b</h3> <p>Ce fichier plus r&eacute;cent de l&rsquo;ATILF contient 103.328 lignes. Il est constitu&eacute; de six colonnes intitul&eacute;es articleID, parentID, source, content, category, gender, feminine. La table ci-dessous donne quelques exemples d&rsquo;entr&eacute;es.</p> <p><img src="https://www.numerev.com/img/ck_3267_32_image-20240408170115-4.png" style="width: 600px; height: 140px;" /></p> <p>On remarque que certaines entr&eacute;es (colonne content) sont pr&eacute;sentes sur plusieurs lignes, probablement li&eacute;es &agrave; la notion d&rsquo;acception. Cette notion d&rsquo;acceptions est g&eacute;r&eacute;e diff&eacute;remmant suivant les dictionnaires. Par exemple, pour accus&eacute;, le Grand Robert n&rsquo;a qu&rsquo;une page en tant que nom et adjectif alors que le TLFi en a deux ( Voir https://www.cnrtl.fr/lexicographie/accus&eacute;)</p> <h2>M&eacute;thodologie</h2> <p>Les diff&eacute;rentes &eacute;tapes chronologiques suivies sont r&eacute;sum&eacute;es ci-dessous. Elles sont d&eacute;taill&eacute;es dans le document de travail&nbsp;: Insertion des cat&eacute;gories grammaticales dans&nbsp;: Laurette Chardon. Insertion des cat&eacute;gories grammaticales dans le Dictionnaire &Eacute;lectronique des Synonymes (DES) -Document de travail. 2024. <a href="https://shs.hal.science/halshs-03956407v2" target="_blank">&lang;halshs-03956407v2&rang;</a></p> <h3>Premi&egrave;re phase de janvier &agrave; novembre 2022</h3> <h4>Traitement de la source 1</h4> <p>Comme d&eacute;taill&eacute; dans le document de travail d&eacute;pos&eacute; sur HAL ( halshs-03956407), plusieurs &eacute;tapes de traitements s&rsquo;imposaient.</p> <p>Tout d&rsquo;abord, nous avons trait&eacute; les entr&eacute;es&nbsp;selon les cat&eacute;gories grammaticales&nbsp;: les verbes (6981, trait&eacute;s), les adjectifs (4641), les substantifs (28.588), les adverbes (943).</p> <p><b>Il faut signaler &agrave; ce moment une d&eacute;cision importante</b>&nbsp;: les codes grammaticaux d&rsquo;une entr&eacute;e pr&eacute;sente sur plusieurs lignes finissant par des chiffres (comme MEUBLE ) consid&eacute;r&eacute;e comme une acception c&rsquo;est-&agrave;-dire ayant plusieurs sens particuliers ont &eacute;t&eacute; s&eacute;par&eacute;s par un point virgule, de fa&ccedil;on &agrave; les diff&eacute;rencier des codes gramaticaux sur une seule ligne.</p> <p>Par exemple, le champ <i>nature</i> de l&rsquo;entr&eacute;e MEUBLE dans le DES est <i>subst. masc.;adj. et subst.;adj.</i></p> <p>correspondant &agrave; <i>bien immobilier</i> (subst. masc.), <i>Qui se laboure ou se travaille facilement</i> (adj.) et <i>Qui peut &ecirc;tre transport&eacute; d&#39;un lieu &agrave; un autre sans subir de d&eacute;t&eacute;rioration</i> (adj. et subst.)</p> <p>Ces &eacute;tapes ont permis de renseigner 50&nbsp;% (25.383 sur 50.350) de la base du DES.</p> <p>Ensuite, nous avons proc&eacute;d&eacute; &agrave; 3 traitements particuliers selon l&rsquo;extension f&eacute;minine en 2nde colonne&nbsp;:</p> <ol> <li> <p>-acte, -aine, -ainte, -aise, -aite, -ale, -als, -aux, -ande, -ane, -anne, -ante, -apse, -arde, -ate, -aude, -aux, -close, -cuite, -dite, -douce, -dure, -ecte, -ienne, -&eacute;e, -&eacute;enne, -&eacute;es, -elle, -ende, -enne, -ente, -&egrave;re, -&egrave;te, -ette, -eule, -eure et -euse.</p> </li> <li> <p>-ails, -faite, -fine, -haute, -ie, -ielle, -ienne, -i&egrave;re, -ile, -ille, -incte, -ine, -ique, -ise, -isse, -ite, -ive, -oise, -onne, -onde, -one, -ote, -otte, -oue, -trice, -ue, -une, -use, aine, ainte, aisceau, aise, aisse, aite, ante, arde, aux, ecte, &eacute;e, &eacute;enne, elle, ente, &egrave;re, erse, erte, &egrave;te, ette, euse, ie, ienne, oise, onne, trice.</p> </li> <li> <p>ale, ande, ane, ate, aude, euse, iale, ienne, i&egrave;re, ieuse, ile, ine, ite, ive, orse, ose, ote, otte, ouse, oute, ue, une, ure, use, ute</p> </li> </ol> <p>Les 2 traitements suivants ont demand&eacute; un travail manuel plus important. Nous avons trait&eacute; 2619 d&rsquo;entr&eacute;es avec des orthographes diff&eacute;rentes, les mots invariants, les pr&eacute;positions, les interjections, les onomatop&eacute;es en &eacute;cartant les entr&eacute;es de type &laquo;&nbsp;&eacute;l&eacute;ment formant&nbsp;&raquo; (nyct-, oculi-, hodo-,..).</p> <p>Puis enfin 1551 entr&eacute;es de type locution &agrave; reformater pour &ecirc;tre ins&eacute;r&eacute;s automatiquement (par exemple&nbsp;: CATIMINI (EN) &rarr; en catimini, CONTREBORD ( &agrave;) &rarr; &agrave; CONTREBORD</p> <p>La proc&eacute;dure pour ces cinq traitements est d&eacute;taill&eacute;e dans les paragraphes &laquo;&nbsp;Introduire une premi&egrave;re cat&eacute;gorie de mots m&eacute;lang&eacute;s&nbsp;&raquo; jusqu&rsquo;&agrave; &laquo;&nbsp;Introduire une cinqui&egrave;me cat&eacute;gorie de mots m&eacute;lang&eacute;s&nbsp;&raquo; du document de travail halshs-03956407 sur HAL</p> <h4>Traitement manuel sans source</h4> <p>Le traitement suivant est issu d&rsquo;une constatation &agrave; partir des entr&eacute;es du DES dont la cat&eacute;gorie n&rsquo;est toujours pas renseign&eacute;e (17.463 lignes)&nbsp;: 1.411 d&rsquo;entre elles commencent par <i>s&rsquo;</i> ou <i>se</i> s&rsquo;av&egrave;rent &ecirc;tre des verbes.</p> <h4>Traitement de la source 1b</h4> <p>A partir des 16.052 entr&eacute;es dans le DES qui n&rsquo;ont pas de cat&eacute;gories grammaticales, nous avons gard&eacute;es celles sans aucun espace soit 10.139&nbsp;pour lesquelles la librairie Spacy apportait une r&eacute;ponse sur le code grammatical.</p> <p>Ce r&eacute;sultat a &eacute;t&eacute; trait&eacute; selon les cat&eacute;gories &nbsp;:</p> <ul> <li> <p>Tout d&rsquo;abord 588 entr&eacute;es se terminant par <i>-er </i>et <i>-ir</i> avec le code &laquo;&nbsp;POS VERB&nbsp;&raquo; ont &eacute;t&eacute; v&eacute;rifi&eacute;es. Quelques corrections ont &eacute;t&eacute; r&eacute;alis&eacute;es comme <i>d&eacute;crottoir, d&eacute;birentier ou parmentier</i>.</p> </li> <li> <p>Ensuite, nous corrigons les entr&eacute;es finissant par &nbsp;<i>&eacute;</i>&nbsp; consid&eacute;r&eacute;es &agrave; tort comme verbe et que nous avons not&eacute; comme participe pass&eacute;. Puis les entr&eacute;es avec le code PROPN ( noms propres), PUNCT (ponctuations) ont &eacute;t&eacute; corrig&eacute;es manuellement. Enfin celles avec le code NOUN et ADJ ont &eacute;t&eacute; sommairement v&eacute;rifi&eacute;es. Cela concerne un total de 951 lignes.</p> </li> <li> <p>Puis nous avons pris en compte les entr&eacute;es avec des tirets et des apostrophes, nous r&eacute;cup&eacute;rons ainsi 328 verbes commen&ccedil;ant par &nbsp;<i>s&rsquo;</i>&nbsp;, 404 adverbes et 275 substantifs finissant par <i>-ment</i>.</p> </li> <li> <p>Pour les entr&eacute;es commen&ccedil;ant par &nbsp;<i>&agrave;</i>&nbsp;, nous avons consid&eacute;r&eacute; que toute expression commencant ainsi est consid&eacute;r&eacute;e comme adjectif si elle figure &agrave; droite d&rsquo;un substantif (<i>un projet &agrave; bas co&ucirc;t</i>) ou comme adverbe &agrave; droite d&rsquo;un verbe ou d&rsquo;un participe (<i>poursuivre un projet &agrave; marche forc&eacute;e ; &eacute;valuer un co&ucirc;t &agrave; la louche</i>). Depuis quelques d&eacute;cennies on emploie les codes adj. et adv. comme des cat&eacute;gories fonctionnelles au-del&agrave; de leur d&eacute;finition morphologique classique. Nous avons choisi de tout &eacute;tiqueter en adverbe et celles pr&eacute;sent&eacute;es sur la <a href="https://fr.wiktionary.org/wiki/Cat%C3%A9gorie:Locutions_adjectivales_en_fran%C3%A7ais">page wiktionary des locutions adjectivales en fran&ccedil;ais</a> ont &eacute;t&eacute; corrig&eacute;es.</p> </li> <li> <p>La v&eacute;rification de 4608 entr&eacute;es retourn&eacute;es par Spacy comme &eacute;tant &laquo;&nbsp;NOUN&nbsp;&raquo;&nbsp;:</p> <ul> <li> <p>200 d&rsquo;entre elles se terminant par <i>er, ir </i>et <i>dre </i>ont &eacute;t&eacute; v&eacute;rifi&eacute;es&nbsp;: 32 &eacute;taient des verbes.</p> </li> <li> <p>la v&eacute;rification de 534 entr&eacute;es se terminant par -<i>eur, -ire</i> et <i>-oir</i> n&rsquo;a d&eacute;cel&eacute; qu&rsquo;une erreur (<i>stup&eacute;faire&nbsp;</i>: verbe)</p> </li> <li> <p>les entr&eacute;es restantes sont rest&eacute;es des substantifs.</p> </li> </ul> </li> </ul> <h4>Traitement manuel sans source</h4> <p>Les 8488 entr&eacute;e du DES sans cat&eacute;gorie grammaticale ont &eacute;t&eacute; v&eacute;rifi&eacute;es par plusieurs personnes selon plusieurs types de filtrage d&eacute;taill&eacute;s dans le document de travail sus-cit&eacute;.</p> <h4>V&eacute;rifications</h4> <p>Il nous sembl&eacute; int&eacute;ressant de mettre en place des tests pouvant potentiellement faire appara&icirc;tre des incoh&eacute;rences. Par exemple, si une entr&eacute;e de type verbe sans &ecirc;tre substantif, ni adjectif, ni adverbe, ni locution, est synonyme d&rsquo;une entr&eacute;e qui n&rsquo;est ni un verbe, ni un adverbe ni une locution, alors une v&eacute;rification s&rsquo;imposait. L&rsquo;ensemble des tests est donn&eacute; dans la table 9 du document de travail.</p> <p>250 entr&eacute;es ont &eacute;t&eacute; corrig&eacute;es.</p>