<h2>Introduction</h2>
<p>Le <a href="https://crisco4.unicaen.fr/des" target="_blank">Dictionnaire électronique des synonymes du CRISCO (DÉS)</a> contient aujourd’hui plus de 50 000 entrées, 209 000 relations synonymiques et 32.000 liaisons antonymiques. La base de départ concernant les synonymes a été constituée à partir de sept dictionnaires classiques. Un premier travail, réalisé par l’INALF (Institut National de la Langue Française), a permis d’en extraire les relations synonymiques. Le laboratoire ELSAP, qui est devenu par la suite le CRISCO, a ensuite concaténé, homogénéisé et symétrisé les données. Depuis 1994, un important travail de correction se perpétue par l’ajout ou la suppression de liens synonymiques et antonymiques.</p>
<p>Après livraison des données de l’INALF, ce projet a démarré sous la responsabilité de Bernard VICTORRI, directeur de recherche, et Sabine PLOUX, ingénieure de recherche, qui ont défini et mis au point les principes de fonctionnement du dictionnaire : union des différentes ressources, symétrisation (générant plus de 50 % de relations supplémentaires), algorithme de calcul des cliques. La représentation spatiale de l’espace sémantique et sa projection sur un plan par calcul matriciel ont également été conçues et réalisées.</p>
<p>De nombreuses personnes sont intervenues, depuis, à la fois pour des corrections, la maintenance et des améliorations (voir la rubrique Historique sur la <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">page de présentation du site web</a>) parmi lesquelles Jean-Luc Manguin Michel Morel et Laurette Chardon, ingénieurs successifs en charge du projet.</p>
<p>Les deux principes de base du DES est la <b>symétrisation</b> et la <b>contextualisation</b> : un mot A peut être remplacé par un mot B dans un contexte donné, sans modification significative du sens. Comme exemples, nous avons :</p>
<ul>
<li>
<p>Les enfants jouent / s’amusent dans la cour.</p>
</li>
<li>
<p>Marie joue/imite/simule Andromaque.</p>
</li>
<li>
<p>Un vin âcre/âpre/vert.</p>
</li>
<li>
<p>Des mots crus/verts</p>
</li>
</ul>
<p>Depuis la mise en ligne sur internet au début des années 2000 :</p>
<ul>
<li>
<p>le DES a continuellement été maintenu mensuellement par 3 ingénieurs successifs : <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">les statistiques depuis 2017 disponibles sur le site web</a>) montrent que de 800 à 1200 propositions des internautes par an ont été vérifiées. Ajoutées aux propositions calculées ou déduites et aux corrections réalisées, nous avons entre 1200 et 9900 corrections annuelles apportées à la base de données.</p>
</li>
<li>
<p>le nombre de requêtes sur le DES a progressivement augmenté. Actuellement, nous comptabilisons entre 150.000 et 200.000 requêtes par jour venant de 167 pays différents, principalement d’Europe et d’Amérique du Nord (Voir Laurette Chardon. Présentation du Dictionnaire Électronique des Synonymes (DES). 2023. <a href="https://shs.hal.science/halshs-02489368v2" target="_blank">⟨halshs-02489368v2⟩)</a></p>
</li>
</ul>
<h2>Objectifs</h2>
<p>La base de données est quasiment restée identique depuis sa création début des années 2000, à l’exception de l’ajout d’une date d’insertion/modification dans les tables en 2018-2019.</p>
<p>Les informations enregistrées sont assez simples comme nous pouvons le voir dans les tableaux ci-dessous : la table des graphies avec les entrées et leur identifiants, la table des synonymes avec les identifiants des entrées synonymiques et la table des antonymes avec les identifiants des entrées antonymiques.</p>
<p><img alt="table des graphies" src="https://www.numerev.com/img/ck_3267_32_image-20240402145234-1.png" style="width: 648px; height: 203px;" /></p>
<p><img alt="table des synonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145242-2.png" style="width: 649px; height: 295px;" /></p>
<p><img alt="table des antonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145318-3.png" style="width: 649px; height: 151px;" /></p>
<p>Mémoriser la catégorie grammaticale a souvent été un sujet récurrent au CRISCO sans avoir, jusqu’à présent, trouvé les sources correspondantes.</p>
<p>Travailler sur un autre projet en relation avec l’ATILF (la polysémie évolutive : lien) a été l’occasion d’utiliser leurs sources pour concrétiser ce projet.</p>
<p>Nous avons décidé en accord avec l’ATILF d’utiliser leurs fichiers afin de mémoriser dans la table des graphies (en ajoutant un nouveau champ intitulé « nature ») les différentes catégories grammaticales.</p>
<h2>Méthode de constitution et/ou sources</h2>
<p>Trois sources différentes sous forme de fichiers en provenance de l’ATILF ont été utilisées (source 1a, source2a et source2b).</p>
<p>Une source (source 1b) est issue de la librairie Spacy avec le langage Python</p>
<p>Les sources 1a et 1b ont été utilisées dans une première grande étape de traitement (de janvier 2022 à novembre 2022), les sources 2a et 2b dans une seconde étape de traitement (de juin 2023 à novembre 2023).</p>
<h3>Source 1a</h3>
<p>La première est un fichier tableur de 54.280 lignes dont un extrait est présenté dans la table ci-dessous.<img src="https://www.numerev.com/img/ck_3267_32_image-20240408163801-1.png" style="width: 600px; height: 420px;" /></p>
<p>Nous voyons que la seule colonne commune à toutes les lignes est la première avec le libellé de la graphie avec toutefois deux remarques importantes :</p>
<ul>
<li>
<p>la même graphie est parfois répétée et incrémentée d’un numéro (Ex : MEUBLE1,2 ou 3).</p>
</li>
<li>
<p>des parenthèses sont présentes, signalant des orthographes différentes autorisées</p>
</li>
</ul>
<p>Ensuite, les lignes les plus simples sont celles avec uniquement une 2nde colonne contenant la catégorie grammaticale.</p>
<p>D’autres lignes ont plusieurs colonnes avec des catégories grammaticales différentes, ou bien des extensions féminines (-AINE, -EUSE,etc.).</p>
<h3>Source 1b</h3>
<p>La librairie <a href="https://spacy.io/models/fr">fr_dep_news_trf</a> est un pipeline de transformateurs français qui contient un ensemble de composants : morphologiseur, analyseur syntaxique, régleur d’attributs, lemmatiseur,..</p>
<p>L’entrainement a été réalisé sur des données provenant de trois sources :</p>
<p>— <a href="https://github.com/UniversalDependencies/UD_French-Sequoia">UD_FrenchSequoia</a> qui est une conversion automatique du corpus français <a href="http://deep-sequoia.inria.fr/">Sequoia (French Sequoia corpus)</a>.</p>
<p>— Le <a href="https://huggingface.co/almanach/camembert-base">modèle camembert-base</a> basé sur le <a href="https://huggingface.co/FacebookAI/roberta-base">modèle RoBERTa</a>. Il a été entrainé sur le corpus <a href="https://oscar-project.org/">OSCAR</a> (Open Super-large Crawled Aggregated coRpus)</p>
<p>— Des fichiers additionnels : <a href="https://github.com/explosion/spacy-lookups-data">spaCy lookups data</a> f.</p>
<p>La première source provient de l’INRIA. Elle contient 3,099 phrases françaises de Europarl (parlement européen), du magazine Est Republicain, du Wikipedia français et de l’agence européenne de médecine. Le manuel d’annotations est disponible <a href="https://gitlab.inria.fr/sequoia/deep-sequoia/-/blob/master/tags/sequoia-9.2/README-distrib.md">en ligne </a>.</p>
<p>Le composant qui nous intéresse est celui qui va associer une catégorie grammaticale aux mots restants. En linguistique, l’étiquetage morpho-syntaxique, aussi appelé étiquetage grammatical ou <a href="https://fr.wikipedia.org/wiki/%C3%89tiquetage_morpho-syntaxique">POS tagging (part-of-speech tagging)</a> est le processus qui consiste à associer aux mots d’un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. à l’aide d’un outil informatique.</p>
<h3>Source 2a</h3>
<p>Dans le cadre du <a href="https://crisco.unicaen.fr/projet-de-modelisation-graphique-de-la-polysemie-evolutive/">projet de modélisation graphique des notices historiques du TLFi</a>, un programme a été créé pour extraire les données de 81 fichiers XML de l’ATILF et les enregistrer au format excel (xlsx). Nous sommes donc partis de ces 81 fichiers tableurs de ce projet pour en créer un unique de 49.854 lignes dont un extrait est donné ci-dessous.</p>
<table border="1" cellpadding="1" cellspacing="1" style="width:500px;">
<thead>
<tr>
<th scope="col">Entrée</th>
<th scope="col">Catégorie grammaticale</th>
</tr>
</thead>
<tbody>
<tr>
<td>absorber</td>
<td>verbe trans.</td>
</tr>
<tr>
<td>accenteur, accentueur</td>
<td>subst. masc.</td>
</tr>
<tr>
<td>despote</td>
<td>subst. masc. et adj.</td>
</tr>
<tr>
<td>déterminé, ée</td>
<td>part. passé, adj. et subst. masc.</td>
</tr>
<tr>
<td>dû, due</td>
<td>part. passé, adj. et subst. masc. sing.</td>
</tr>
<tr>
<td>narquois, -oise</td>
<td>adj. et subst. masc.</td>
</tr>
<tr>
<td>n'est-ce pas</td>
<td>loc. inv.</td>
</tr>
<tr>
<td>neuf1</td>
<td>adj. et subst. masc. inv.</td>
</tr>
<tr>
<td>neuf2, neuve</td>
<td>adj. et subst. masc.</td>
</tr>
</tbody>
</table>
<h3>Source 2b</h3>
<p>Ce fichier plus récent de l’ATILF contient 103.328 lignes. Il est constitué de six colonnes intitulées articleID, parentID, source, content, category, gender, feminine. La table ci-dessous donne quelques exemples d’entrées.</p>
<p><img src="https://www.numerev.com/img/ck_3267_32_image-20240408170115-4.png" style="width: 600px; height: 140px;" /></p>
<p>On remarque que certaines entrées (colonne content) sont présentes sur plusieurs lignes, probablement liées à la notion d’acception. Cette notion d’acceptions est gérée différemmant suivant les dictionnaires. Par exemple, pour accusé, le Grand Robert n’a qu’une page en tant que nom et adjectif alors que le TLFi en a deux ( Voir https://www.cnrtl.fr/lexicographie/accusé)</p>