<h2>Introduction</h2> <p>Le <a href="https://crisco4.unicaen.fr/des" target="_blank">Dictionnaire &eacute;lectronique des synonymes du CRISCO (D&Eacute;S)</a> contient aujourd&rsquo;hui plus de 50 000 entr&eacute;es, 209 000 relations synonymiques et 32.000 liaisons antonymiques. La base de d&eacute;part concernant les synonymes a &eacute;t&eacute; constitu&eacute;e &agrave; partir de sept dictionnaires classiques. Un premier travail, r&eacute;alis&eacute; par l&rsquo;INALF (Institut National de la Langue Fran&ccedil;aise), a permis d&rsquo;en extraire les relations synonymiques. Le laboratoire ELSAP, qui est devenu par la suite le CRISCO, a ensuite concat&eacute;n&eacute;, homog&eacute;n&eacute;is&eacute; et sym&eacute;tris&eacute; les donn&eacute;es. Depuis 1994, un important travail de correction se perp&eacute;tue par l&rsquo;ajout ou la suppression de liens synonymiques et antonymiques.</p> <p>Apr&egrave;s livraison des donn&eacute;es de l&rsquo;INALF, ce projet a d&eacute;marr&eacute; sous la responsabilit&eacute; de Bernard VICTORRI, directeur de recherche, et Sabine PLOUX, ing&eacute;nieure de recherche, qui ont d&eacute;fini et mis au point les principes de fonctionnement du dictionnaire : union des diff&eacute;rentes ressources, sym&eacute;trisation (g&eacute;n&eacute;rant plus de 50 % de relations suppl&eacute;mentaires), algorithme de calcul des cliques. La repr&eacute;sentation spatiale de l&rsquo;espace s&eacute;mantique et sa projection sur un plan par calcul matriciel ont &eacute;galement &eacute;t&eacute; con&ccedil;ues et r&eacute;alis&eacute;es.</p> <p>De nombreuses personnes sont intervenues, depuis, &agrave; la fois pour des corrections, la maintenance et des am&eacute;liorations (voir la rubrique Historique sur la <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">page de pr&eacute;sentation du site web</a>) parmi lesquelles Jean-Luc Manguin Michel Morel et Laurette Chardon, ing&eacute;nieurs successifs en charge du projet.</p> <p>Les deux principes de base du DES est la <b>sym&eacute;trisation</b> et la <b>contextualisation</b>&nbsp;: un mot A peut &ecirc;tre remplac&eacute; par un mot B dans un contexte donn&eacute;, sans modification significative du sens. Comme exemples, nous avons :</p> <ul> <li> <p>Les enfants jouent / s&rsquo;amusent dans la cour.</p> </li> <li> <p>Marie joue/imite/simule Andromaque.</p> </li> <li> <p>Un vin &acirc;cre/&acirc;pre/vert.</p> </li> <li> <p>Des mots crus/verts</p> </li> </ul> <p>Depuis la mise en ligne sur internet au d&eacute;but des ann&eacute;es 2000&nbsp;:</p> <ul> <li> <p>le DES a continuellement &eacute;t&eacute; maintenu mensuellement par 3 ing&eacute;nieurs successifs&nbsp;: <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">les statistiques depuis 2017 disponibles sur le site web</a>) montrent que de 800 &agrave; 1200 propositions des internautes par an ont &eacute;t&eacute; v&eacute;rifi&eacute;es. Ajout&eacute;es aux propositions calcul&eacute;es ou d&eacute;duites et aux corrections r&eacute;alis&eacute;es, nous avons entre 1200 et 9900 corrections annuelles apport&eacute;es &agrave; la base de donn&eacute;es.</p> </li> <li> <p>le nombre de requ&ecirc;tes sur le DES a progressivement augment&eacute;. Actuellement, nous comptabilisons entre 150.000 et 200.000 requ&ecirc;tes par jour venant de 167 pays diff&eacute;rents,&nbsp; principalement d&rsquo;Europe et d&rsquo;Am&eacute;rique du Nord (Voir Laurette Chardon. Pr&eacute;sentation du Dictionnaire &Eacute;lectronique des Synonymes (DES). 2023. <a href="https://shs.hal.science/halshs-02489368v2" target="_blank">&lang;halshs-02489368v2&rang;)</a></p> </li> </ul> <h2>Objectifs</h2> <p>La base de donn&eacute;es est quasiment rest&eacute;e identique depuis sa cr&eacute;ation d&eacute;but des ann&eacute;es 2000, &agrave; l&rsquo;exception de l&rsquo;ajout d&rsquo;une date d&rsquo;insertion/modification dans les tables en 2018-2019.</p> <p>Les informations enregistr&eacute;es sont assez simples comme nous pouvons le voir dans les tableaux ci-dessous&nbsp;: la table des graphies avec les entr&eacute;es et leur identifiants, la table des synonymes avec les identifiants des entr&eacute;es synonymiques et la table des antonymes avec les identifiants des entr&eacute;es antonymiques.</p> <p><img alt="table des graphies" src="https://www.numerev.com/img/ck_3267_32_image-20240402145234-1.png" style="width: 648px; height: 203px;" /></p> <p><img alt="table des synonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145242-2.png" style="width: 649px; height: 295px;" /></p> <p><img alt="table des antonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145318-3.png" style="width: 649px; height: 151px;" /></p> <p>M&eacute;moriser la cat&eacute;gorie grammaticale a souvent &eacute;t&eacute; un sujet r&eacute;current au CRISCO sans avoir, jusqu&rsquo;&agrave; pr&eacute;sent, trouv&eacute; les sources correspondantes.</p> <p>Travailler sur un autre projet en relation avec l&rsquo;ATILF (la polys&eacute;mie &eacute;volutive&nbsp;: lien) a &eacute;t&eacute; l&rsquo;occasion d&rsquo;utiliser leurs sources pour concr&eacute;tiser ce projet.</p> <p>Nous avons d&eacute;cid&eacute; en accord avec l&rsquo;ATILF d&rsquo;utiliser leurs fichiers afin de m&eacute;moriser dans la table des graphies (en ajoutant un nouveau champ intitul&eacute; &laquo;&nbsp;nature&nbsp;&raquo;) les diff&eacute;rentes cat&eacute;gories grammaticales.</p> <h2>M&eacute;thode de constitution et/ou sources</h2> <p>Trois sources diff&eacute;rentes sous forme de fichiers en provenance de l&rsquo;ATILF ont &eacute;t&eacute; utilis&eacute;es (source 1a, source2a et source2b).</p> <p>Une source (source 1b) est issue de la librairie Spacy avec le langage Python</p> <p>Les sources 1a et 1b ont &eacute;t&eacute; utilis&eacute;es dans une premi&egrave;re grande &eacute;tape de traitement (de janvier 2022 &agrave; novembre 2022), les sources 2a et 2b dans une seconde &eacute;tape de traitement (de juin 2023 &agrave; novembre 2023).</p> <h3>Source 1a</h3> <p>La premi&egrave;re est un fichier tableur de 54.280 lignes dont un extrait est pr&eacute;sent&eacute; dans la table ci-dessous.<img src="https://www.numerev.com/img/ck_3267_32_image-20240408163801-1.png" style="width: 600px; height: 420px;" /></p> <p>Nous voyons que la seule colonne commune &agrave; toutes les lignes est la premi&egrave;re avec le libell&eacute; de la graphie avec toutefois deux remarques importantes&nbsp;:</p> <ul> <li> <p>la m&ecirc;me graphie est parfois r&eacute;p&eacute;t&eacute;e et incr&eacute;ment&eacute;e d&rsquo;un num&eacute;ro (Ex&nbsp;: MEUBLE1,2 ou 3).</p> </li> <li> <p>des parenth&egrave;ses sont pr&eacute;sentes, signalant des orthographes diff&eacute;rentes autoris&eacute;es</p> </li> </ul> <p>Ensuite, les lignes les plus simples sont celles avec uniquement une 2nde colonne contenant la cat&eacute;gorie grammaticale.</p> <p>D&rsquo;autres lignes ont plusieurs colonnes avec des cat&eacute;gories grammaticales diff&eacute;rentes, ou bien des extensions f&eacute;minines (-AINE, -EUSE,etc.).</p> <h3>Source 1b</h3> <p>La librairie <a href="https://spacy.io/models/fr">fr_dep_news_trf</a> est un pipeline de transformateurs fran&ccedil;ais qui contient un ensemble de composants : morphologiseur, analyseur syntaxique, r&eacute;gleur d&rsquo;attributs, lemmatiseur,..</p> <p>L&rsquo;entrainement a &eacute;t&eacute; r&eacute;alis&eacute; sur des donn&eacute;es provenant de trois sources :</p> <p>&mdash; <a href="https://github.com/UniversalDependencies/UD_French-Sequoia">UD_FrenchSequoia</a> qui est une conversion automatique du corpus fran&ccedil;ais <a href="http://deep-sequoia.inria.fr/">Sequoia (French Sequoia corpus)</a>.</p> <p>&mdash; Le <a href="https://huggingface.co/almanach/camembert-base">mod&egrave;le camembert-base</a> bas&eacute; sur le <a href="https://huggingface.co/FacebookAI/roberta-base">mod&egrave;le RoBERTa</a>. Il a &eacute;t&eacute; entrain&eacute; sur le corpus <a href="https://oscar-project.org/">OSCAR</a> (Open Super-large Crawled Aggregated coRpus)</p> <p>&mdash; Des fichiers additionnels : <a href="https://github.com/explosion/spacy-lookups-data">spaCy lookups data</a> f.</p> <p>La premi&egrave;re source provient de l&rsquo;INRIA. Elle contient 3,099 phrases fran&ccedil;aises de Europarl (parlement europ&eacute;en), du magazine Est Republicain, du Wikipedia fran&ccedil;ais et de l&rsquo;agence europ&eacute;enne de m&eacute;decine. Le manuel d&rsquo;annotations est disponible <a href="https://gitlab.inria.fr/sequoia/deep-sequoia/-/blob/master/tags/sequoia-9.2/README-distrib.md">en ligne </a>.</p> <p>Le composant qui nous int&eacute;resse est celui qui va associer une cat&eacute;gorie grammaticale aux mots restants. En linguistique, l&rsquo;&eacute;tiquetage morpho-syntaxique, aussi appel&eacute; &eacute;tiquetage grammatical ou <a href="https://fr.wikipedia.org/wiki/%C3%89tiquetage_morpho-syntaxique">POS tagging (part-of-speech tagging)</a> est le processus qui consiste &agrave; associer aux mots d&rsquo;un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. &agrave; l&rsquo;aide d&rsquo;un outil informatique.</p> <h3>Source 2a</h3> <p>&nbsp;</p> <p>&nbsp;</p>