<h2>Introduction</h2> Le <a href="https://crisco4.unicaen.fr/des" target="_blank">Dictionnaire électronique des synonymes du CRISCO (DÉS)</a> contient aujourd’hui plus de 50 000 entrées, 209 000 relations synonymiques et 32.000 liaisons antonymiques. La base de départ concernant les synonymes a été constituée à partir de sept dictionnaires classiques. Un premier travail, réalisé par l’INALF (Institut National de la Langue Française), a permis d’en extraire les relations synonymiques. Le laboratoire ELSAP, qui est devenu par la suite le CRISCO, a ensuite concaténé, homogénéisé et symétrisé les données. Depuis 1994, un important travail de correction se perpétue par l’ajout ou la suppression de liens synonymiques et antonymiques. Après livraison des données de l’INALF, ce projet a démarré sous la responsabilité de Bernard VICTORRI, directeur de recherche, et Sabine PLOUX, ingénieure de recherche, qui ont défini et mis au point les principes de fonctionnement du dictionnaire : union des différentes ressources, symétrisation (générant plus de 50 % de relations supplémentaires), algorithme de calcul des cliques. La représentation spatiale de l’espace sémantique et sa projection sur un plan par calcul matriciel ont également été conçues et réalisées. De nombreuses personnes sont intervenues, depuis, à la fois pour des corrections, la maintenance et des améliorations (voir la rubrique Historique sur la <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">page de présentation du site web</a>) parmi lesquelles Jean-Luc Manguin Michel Morel et Laurette Chardon, ingénieurs successifs en charge du projet. Les deux principes de base du DES est la symétrisation et la contextualisation : un mot A peut être remplacé par un mot B dans un contexte donné, sans modification significative du sens. Comme exemples, nous avons : <ul> <li> Les enfants jouent / s’amusent dans la cour. </li> <li> Marie joue/imite/simule Andromaque. </li> <li> Un vin âcre/âpre/vert. </li> <li> Des mots crus/verts </li> </ul> Depuis la mise en ligne sur internet au début des années 2000 : <ul> <li> le DES a continuellement été maintenu mensuellement par 3 ingénieurs successifs : <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">les statistiques depuis 2017 disponibles sur le site web</a>) montrent que de 800 à 1200 propositions des internautes par an ont été vérifiées. Ajoutées aux propositions calculées ou déduites et aux corrections réalisées, nous avons entre 1200 et 9900 corrections annuelles apportées à la base de données. </li> <li> le nombre de requêtes sur le DES a progressivement augmenté. Actuellement, nous comptabilisons entre 150.000 et 200.000 requêtes par jour venant de 167 pays différents,  principalement d’Europe et d’Amérique du Nord (Voir Laurette Chardon. Présentation du Dictionnaire Électronique des Synonymes (DES). 2023. <a href="https://shs.hal.science/halshs-02489368v2" target="_blank">&lang;halshs-02489368v2&rang;)</a> </li> </ul> <h2>Objectifs</h2> La base de données est quasiment restée identique depuis sa création début des années 2000, à l’exception de l’ajout d’une date d’insertion/modification dans les tables en 2018-2019. Les informations enregistrées sont assez simples comme nous pouvons le voir dans les tableaux ci-dessous : la table des graphies avec les entrées et leur identifiants, la table des synonymes avec les identifiants des entrées synonymiques et la table des antonymes avec les identifiants des entrées antonymiques. <img alt="table des graphies" src="https://www.numerev.com/img/ck_3267_32_image-20240402145234-1.png" style="width: 648px; height: 203px;" /> <img alt="table des synonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145242-2.png" style="width: 649px; height: 295px;" /> <img alt="table des antonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145318-3.png" style="width: 649px; height: 151px;" /> Mémoriser la catégorie grammaticale a souvent été un sujet récurrent au CRISCO sans avoir, jusqu’à présent, trouvé les sources correspondantes. Travailler sur un autre projet en relation avec l’ATILF (la polysémie évolutive : lien) a été l’occasion d’utiliser leurs sources pour concrétiser ce projet. Nous avons décidé en accord avec l’ATILF d’utiliser leurs fichiers afin de mémoriser dans la table des graphies (en ajoutant un nouveau champ intitulé « nature ») les différentes catégories grammaticales. <h2>Méthode de constitution et/ou sources</h2> Trois sources différentes sous forme de fichiers en provenance de l’ATILF ont été utilisées (source 1a, source2a et source2b). Une source (source 1b) est issue de la librairie Spacy avec le langage Python Les sources 1a et 1b ont été utilisées dans une première grande étape de traitement (de janvier 2022 à novembre 2022), les sources 2a et 2b dans une seconde étape de traitement (de juin 2023 à novembre 2023). <h3>Source 1a</h3> La première est un fichier tableur de 54.280 lignes dont un extrait est présenté dans la table ci-dessous.<img src="https://www.numerev.com/img/ck_3267_32_image-20240408163801-1.png" style="width: 600px; height: 420px;" /> Nous voyons que la seule colonne commune à toutes les lignes est la première avec le libellé de la graphie avec toutefois deux remarques importantes : <ul> <li> la même graphie est parfois répétée et incrémentée d’un numéro (Ex : MEUBLE1,2 ou 3). </li> <li> des parenthèses sont présentes, signalant des orthographes différentes autorisées </li> </ul> Ensuite, les lignes les plus simples sont celles avec uniquement une 2nde colonne contenant la catégorie grammaticale. D’autres lignes ont plusieurs colonnes avec des catégories grammaticales différentes, ou bien des extensions féminines (-AINE, -EUSE,etc.). <h3>Source 1b</h3> La librairie <a href="https://spacy.io/models/fr">fr_dep_news_trf</a> est un pipeline de transformateurs français qui contient un ensemble de composants : morphologiseur, analyseur syntaxique, régleur d’attributs, lemmatiseur,.. L’entrainement a été réalisé sur des données provenant de trois sources : — <a href="https://github.com/UniversalDependencies/UD_French-Sequoia">UD_FrenchSequoia</a> qui est une conversion automatique du corpus français <a href="http://deep-sequoia.inria.fr/">Sequoia (French Sequoia corpus)</a>. — Le <a href="https://huggingface.co/almanach/camembert-base">modèle camembert-base</a> basé sur le <a href="https://huggingface.co/FacebookAI/roberta-base">modèle RoBERTa</a>. Il a été entrainé sur le corpus <a href="https://oscar-project.org/">OSCAR</a> (Open Super-large Crawled Aggregated coRpus) — Des fichiers additionnels : <a href="https://github.com/explosion/spacy-lookups-data">spaCy lookups data</a> f. La première source provient de l’INRIA. Elle contient 3,099 phrases françaises de Europarl (parlement européen), du magazine Est Republicain, du Wikipedia français et de l’agence européenne de médecine. Le manuel d’annotations est disponible <a href="https://gitlab.inria.fr/sequoia/deep-sequoia/-/blob/master/tags/sequoia-9.2/README-distrib.md">en ligne </a>. Le composant qui nous intéresse est celui qui va associer une catégorie grammaticale aux mots restants. En linguistique, l’étiquetage morpho-syntaxique, aussi appelé étiquetage grammatical ou <a href="https://fr.wikipedia.org/wiki/%C3%89tiquetage_morpho-syntaxique">POS tagging (part-of-speech tagging)</a> est le processus qui consiste à associer aux mots d’un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. à l’aide d’un outil informatique. <h3>Source 2a</h3> Dans le cadre du <a href="https://crisco.unicaen.fr/projet-de-modelisation-graphique-de-la-polysemie-evolutive/">projet de modélisation graphique des notices historiques du TLFi</a>, un programme a été créé pour extraire les données de 81 fichiers XML de l’ATILF et les enregistrer au format excel (xlsx). Nous sommes donc partis de ces 81 fichiers tableurs de ce projet pour en créer un unique de 49.854 lignes dont un extrait est donné ci-dessous. <table border="1" cellpadding="1" cellspacing="1" style="width:500px;"> <thead> <tr> <th scope="col">Entrée</th> <th scope="col">Catégorie grammaticale</th> </tr> </thead> <tbody> <tr> <td>absorber</td> <td>verbe trans.</td> </tr> <tr> <td>accenteur, accentueur</td> <td>subst. masc.</td> </tr> <tr> <td>despote</td> <td>subst. masc. et adj.</td> </tr> <tr> <td>déterminé, ée</td> <td>part. passé, adj. et subst. masc.</td> </tr> <tr> <td>dû, due</td> <td>part. passé, adj. et subst. masc. sing.</td> </tr> <tr> <td>narquois, -oise</td> <td>adj. et subst. masc.</td> </tr> <tr> <td>n'est-ce pas</td> <td>loc. inv.</td> </tr> <tr> <td>neuf1</td> <td>adj. et subst. masc. inv.</td> </tr> <tr> <td>neuf2, neuve</td> <td>adj. et subst. masc.</td> </tr> </tbody> </table> <h3>Source 2b</h3> Ce fichier plus récent de l’ATILF contient 103.328 lignes. Il est constitué de six colonnes intitulées articleID, parentID, source, content, category, gender, feminine. La table ci-dessous donne quelques exemples d’entrées. <img src="https://www.numerev.com/img/ck_3267_32_image-20240408170115-4.png" style="width: 600px; height: 140px;" /> On remarque que certaines entrées (colonne content) sont présentes sur plusieurs lignes, probablement liées à la notion d’acception. Cette notion d’acceptions est gérée différemmant suivant les dictionnaires. Par exemple, pour accusé, le Grand Robert n’a qu’une page en tant que nom et adjectif alors que le TLFi en a deux ( Voir https://www.cnrtl.fr/lexicographie/accusé) <h2>Méthodologie</h2> Les différentes étapes chronologiques suivies sont résumées ci-dessous. Elles sont détaillées dans le document de travail : Insertion des catégories grammaticales dans : Laurette Chardon. Insertion des catégories grammaticales dans le Dictionnaire Électronique des Synonymes (DES) -Document de travail. 2024. <a href="https://shs.hal.science/halshs-03956407v2" target="_blank">&lang;halshs-03956407v2&rang;</a> <h3>Première phase de janvier à novembre 2022</h3> <h4>Traitement de la source 1</h4> Comme détaillé dans le document de travail déposé sur HAL ( halshs-03956407), plusieurs étapes de traitements s’imposaient. Tout d’abord, nous avons traité les entrées selon les catégories grammaticales : les verbes (6981, traités), les adjectifs (4641), les substantifs (28.588), les adverbes (943). Il faut signaler à ce moment une décision importante : les codes grammaticaux d’une entrée présente sur plusieurs lignes finissant par des chiffres (comme MEUBLE ) considérée comme une acception c’est-à-dire ayant plusieurs sens particuliers ont été séparés par un point virgule, de façon à les différencier des codes gramaticaux sur une seule ligne. Par exemple, le champ nature de l’entrée MEUBLE dans le DES est subst. masc.;adj. et subst.;adj. correspondant à bien immobilier (subst. masc.), Qui se laboure ou se travaille facilement (adj.) et Qui peut être transporté d'un lieu à un autre sans subir de détérioration (adj. et subst.) Ces étapes ont permis de renseigner 50 % (25.383 sur 50.350) de la base du DES. Ensuite, nous avons procédé à 3 traitements particuliers selon l’extension féminine en 2nde colonne : <ol> <li> -acte, -aine, -ainte, -aise, -aite, -ale, -als, -aux, -ande, -ane, -anne, -ante, -apse, -arde, -ate, -aude, -aux, -close, -cuite, -dite, -douce, -dure, -ecte, -ienne, -ée, -éenne, -ées, -elle, -ende, -enne, -ente, -ère, -ète, -ette, -eule, -eure et -euse. </li> <li> -ails, -faite, -fine, -haute, -ie, -ielle, -ienne, -ière, -ile, -ille, -incte, -ine, -ique, -ise, -isse, -ite, -ive, -oise, -onne, -onde, -one, -ote, -otte, -oue, -trice, -ue, -une, -use, aine, ainte, aisceau, aise, aisse, aite, ante, arde, aux, ecte, ée, éenne, elle, ente, ère, erse, erte, ète, ette, euse, ie, ienne, oise, onne, trice. </li> <li> ale, ande, ane, ate, aude, euse, iale, ienne, ière, ieuse, ile, ine, ite, ive, orse, ose, ote, otte, ouse, oute, ue, une, ure, use, ute </li> </ol> Les 2 traitements suivants ont demandé un travail manuel plus important. Nous avons traité 2619 d’entrées avec des orthographes différentes, les mots invariants, les prépositions, les interjections, les onomatopées en écartant les entrées de type « élément formant » (nyct-, oculi-, hodo-,..). Puis enfin 1551 entrées de type locution à reformater pour être insérés automatiquement (par exemple : CATIMINI (EN) → en catimini, CONTREBORD ( à) → à CONTREBORD La procédure pour ces cinq traitements est détaillée dans les paragraphes « Introduire une première catégorie de mots mélangés » jusqu’à « Introduire une cinquième catégorie de mots mélangés » du document de travail halshs-03956407 sur HAL <h4>Traitement manuel sans source</h4> Le traitement suivant est issu d’une constatation à partir des entrées du DES dont la catégorie n’est toujours pas renseignée (17.463 lignes) : 1.411 d’entre elles commencent par s’ ou se s’avèrent être des verbes. <h4>Traitement de la source 1b</h4> A partir des 16.052 entrées dans le DES qui n’ont pas de catégories grammaticales, nous avons gardées celles sans aucun espace soit 10.139 pour lesquelles la librairie Spacy apportait une réponse sur le code grammatical. Ce résultat a été traité selon les catégories  : <ul> <li> Tout d’abord 588 entrées se terminant par -er et -ir avec le code « POS VERB » ont été vérifiées. Quelques corrections ont été réalisées comme décrottoir, débirentier ou parmentier. </li> <li> Ensuite, nous corrigons les entrées finissant par  é  considérées à tort comme verbe et que nous avons noté comme participe passé. Puis les entrées avec le code PROPN ( noms propres), PUNCT (ponctuations) ont été corrigées manuellement. Enfin celles avec le code NOUN et ADJ ont été sommairement vérifiées. Cela concerne un total de 951 lignes. </li> <li> Puis nous avons pris en compte les entrées avec des tirets et des apostrophes, nous récupérons ainsi 328 verbes commençant par  s’ , 404 adverbes et 275 substantifs finissant par -ment. </li> <li> Pour les entrées commençant par  à , nous avons considéré que toute expression commencant ainsi est considérée comme adjectif si elle figure à droite d’un substantif (un projet à bas coût) ou comme adverbe à droite d’un verbe ou d’un participe (poursuivre un projet à marche forcée ; évaluer un coût à la louche). Depuis quelques décennies on emploie les codes adj. et adv. comme des catégories fonctionnelles au-delà de leur définition morphologique classique. Nous avons choisi de tout étiqueter en adverbe et celles présentées sur la <a href="https://fr.wiktionary.org/wiki/Cat%C3%A9gorie:Locutions_adjectivales_en_fran%C3%A7ais">page wiktionary des locutions adjectivales en français</a> ont été corrigées. </li> <li> La vérification de 4608 entrées retournées par Spacy comme étant « NOUN » : <ul> <li> 200 d’entre elles se terminant par er, ir et dre ont été vérifiées : 32 étaient des verbes. </li> <li> la vérification de 534 entrées se terminant par -eur, -ire et -oir n’a décelé qu’une erreur (stupéfaire : verbe) </li> <li> les entrées restantes sont restées des substantifs. </li> </ul> </li> </ul> <h4>Traitement manuel sans source</h4> Les 8488 entrée du DES sans catégorie grammaticale ont été vérifiées par plusieurs personnes selon plusieurs types de filtrage détaillés dans le document de travail sus-cité. <h4>Vérifications</h4> Il nous semblé intéressant de mettre en place des tests pouvant potentiellement faire apparaître des incohérences. Par exemple, si une entrée de type verbe sans être substantif, ni adjectif, ni adverbe, ni locution, est synonyme d’une entrée qui n’est ni un verbe, ni un adverbe ni une locution, alors une vérification s’imposait. L’ensemble des tests est donné dans la table 9 du document de travail. 250 entrées ont été corrigées.