<h2>Préambule</h2>
<p>Cet article fait référence à plusieurs fois à :</p>
<ul>
<li>un document de travail dont les références sont :</li>
</ul>
<p>Laurette Chardon. Insertion des catégories grammaticales dans le Dictionnaire Électronique des Synonymes (DES) -Document de travail. 2024. <a href="https://shs.hal.science/halshs-03956407v2" target="_blank">⟨halshs-03956407v2⟩</a></p>
<ul>
<li>et à un dépôt git publique : <a href="https://git.unicaen.fr/crisco-des-public/descatgram/">https://git.unicaen.fr/crisco-des-public/descatgram/</a></li>
</ul>
<h2>Introduction</h2>
<p>Le <a href="https://crisco4.unicaen.fr/des" target="_blank">Dictionnaire électronique des synonymes du CRISCO (DÉS)</a> contient aujourd’hui plus de 50 000 entrées, 209 000 relations synonymiques et 32.000 liaisons antonymiques. La base de départ concernant les synonymes a été constituée à partir de sept dictionnaires classiques. Un premier travail, réalisé par l’INALF (Institut National de la Langue Française), a permis d’en extraire les relations synonymiques. Le laboratoire ELSAP, qui est devenu par la suite le CRISCO, a ensuite concaténé, homogénéisé et symétrisé les données. Depuis 1994, un important travail de correction se perpétue par l’ajout ou la suppression de liens synonymiques et antonymiques.</p>
<p>Après livraison des données de l’INALF, ce projet a démarré sous la responsabilité de Bernard VICTORRI, directeur de recherche, et Sabine PLOUX, ingénieure de recherche, qui ont défini et mis au point les principes de fonctionnement du dictionnaire : union des différentes ressources, symétrisation (générant plus de 50 % de relations supplémentaires), algorithme de calcul des cliques. La représentation spatiale de l’espace sémantique et sa projection sur un plan par calcul matriciel ont également été conçues et réalisées.</p>
<p>De nombreuses personnes sont intervenues, depuis, à la fois pour des corrections, la maintenance et des améliorations (voir la rubrique Historique sur la <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">page de présentation du site web</a>) parmi lesquelles Jean-Luc Manguin, Michel Morel et Laurette Chardon, ingénieurs successifs en charge du projet.</p>
<p>Les deux principes de base du DES est la <b>symétrisation</b> et la <b>contextualisation</b> : un mot A peut être remplacé par un mot B dans un contexte donné, sans modification significative du sens. Comme exemples, nous avons :</p>
<ul>
<li>
<p>Les enfants jouent / s’amusent dans la cour.</p>
</li>
<li>
<p>Marie joue/imite/simule Andromaque.</p>
</li>
<li>
<p>Un vin âcre/âpre/vert.</p>
</li>
<li>
<p>Des mots crus/verts</p>
</li>
</ul>
<p>Depuis la mise en ligne sur internet au début des années 2000 :</p>
<ul>
<li>
<p>le DES a continuellement été maintenu mensuellement par 3 ingénieurs successifs : <a href="https://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes-des/presentation-du-dictionnaire-electronique-des-synonymes/" target="_blank">les statistiques depuis 2017 disponibles sur le site web</a>) montrent que de 800 à 1200 propositions des internautes par an ont été vérifiées. Ajoutées aux propositions calculées ou déduites et aux corrections réalisées, nous avons entre 1200 et 9900 corrections annuelles apportées à la base de données.</p>
</li>
<li>
<p>le nombre de requêtes sur le DES a progressivement augmenté. Actuellement, nous comptabilisons entre 150.000 et 200.000 requêtes par jour venant de 167 pays différents, principalement d’Europe et d’Amérique du Nord (Voir Laurette Chardon. Présentation du Dictionnaire Électronique des Synonymes (DES). 2023. <a href="https://shs.hal.science/halshs-02489368v2" target="_blank">⟨halshs-02489368v2⟩)</a></p>
</li>
</ul>
<h2>Objectifs</h2>
<p>La base de données est quasiment restée identique depuis sa création début des années 2000, à l’exception de l’ajout d’une date d’insertion/modification dans les tables en 2018-2019.</p>
<p>Les informations enregistrées sont assez simples comme nous pouvons le voir dans les tableaux ci-dessous : la table des graphies avec les entrées et leur identifiants, la table des synonymes avec les identifiants des entrées synonymiques et la table des antonymes avec les identifiants des entrées antonymiques.</p>
<p><img alt="table des graphies" src="https://www.numerev.com/img/ck_3267_32_image-20240402145234-1.png" style="width: 648px; height: 203px;" /></p>
<p><img alt="table des synonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145242-2.png" style="width: 649px; height: 295px;" /></p>
<p><img alt="table des antonymes" src="https://www.numerev.com/img/ck_3267_32_image-20240402145318-3.png" style="width: 649px; height: 151px;" /></p>
<p>Mémoriser la catégorie grammaticale a souvent été un sujet récurrent au CRISCO sans avoir, jusqu’à présent, trouvé les sources adéquates.</p>
<p>Travailler sur un autre projet en relation avec l’ATILF (<a href="https://crisco.unicaen.fr/projet-de-modelisation-graphique-de-la-polysemie-evolutive/">la polysémie évolutive</a>) a été l’occasion d’utiliser leurs sources pour concrétiser ce projet.</p>
<p>Nous avons décidé en accord avec l’ATILF d’utiliser leurs fichiers afin de mémoriser dans la table des graphies (en ajoutant un nouveau champ intitulé « nature ») les différentes catégories grammaticales.</p>
<h2>Méthode de constitution et/ou sources</h2>
<p>Trois sources différentes sous forme de fichiers en provenance de l’ATILF ont été utilisées (source 1a, source2a et source2b).</p>
<p>Une source (source 1b) est issue de la librairie Spacy avec le langage Python</p>
<p>Les sources 1a et 1b ont été utilisées dans la première étape de traitement (de janvier 2022 à novembre 2022), les sources 2a et 2b dans la seconde étape de traitement (de juin 2023 à novembre 2023).</p>
<h3>Source 1a</h3>
<p>La première est un fichier tableur de 54.280 lignes dont un extrait est présenté dans la table ci-dessous.<img src="https://www.numerev.com/img/ck_3267_32_image-20240408163801-1.png" style="width: 600px; height: 420px;" /></p>
<p>Nous voyons que la seule colonne commune à toutes les lignes est la première avec le libellé de la graphie avec toutefois deux remarques importantes :</p>
<ul>
<li>
<p>la même graphie est parfois répétée et incrémentée d’un numéro (Ex : MEUBLE1,2 ou 3).</p>
</li>
<li>
<p>des parenthèses sont présentes, signalant des orthographes différentes autorisées</p>
</li>
</ul>
<p>Ensuite, les lignes les plus simples sont celles avec uniquement une seconde colonne contenant la catégorie grammaticale.</p>
<p>D’autres lignes ont plusieurs colonnes avec des catégories grammaticales différentes, ou bien des extensions féminines (-AINE, -EUSE,etc.).</p>
<h3>Source 1b</h3>
<p>La librairie <a href="https://spacy.io/models/fr">fr_dep_news_trf</a> est un pipeline de transformateurs français qui contient un ensemble de composants : morphologiseur, analyseur syntaxique, régleur d’attributs, lemmatiseur,..</p>
<p>L’entrainement a été réalisé sur des données provenant de trois sources :</p>
<p>— <a href="https://github.com/UniversalDependencies/UD_French-Sequoia">UD_FrenchSequoia</a> qui est une conversion automatique du corpus français <a href="http://deep-sequoia.inria.fr/">Sequoia (French Sequoia corpus)</a>.</p>
<p>— Le <a href="https://huggingface.co/almanach/camembert-base">modèle camembert-base</a> basé sur le <a href="https://huggingface.co/FacebookAI/roberta-base">modèle RoBERTa</a>. Il a été entrainé sur le corpus <a href="https://oscar-project.org/">OSCAR</a> (Open Super-large Crawled Aggregated coRpus)</p>
<p>— Des fichiers additionnels : <a href="https://github.com/explosion/spacy-lookups-data">spaCy lookups data</a></p>
<p>La première source provient de l’INRIA. Elle contient 3,099 phrases françaises de Europarl (parlement européen), du magazine Est Republicain, du Wikipedia français et de l’agence européenne de médecine. Le manuel d’annotations est disponible <a href="https://gitlab.inria.fr/sequoia/deep-sequoia/-/blob/master/tags/sequoia-9.2/README-distrib.md">en ligne </a>.</p>
<p>Le composant qui nous intéresse est celui qui va associer une catégorie grammaticale aux mots. En linguistique, l’étiquetage morpho-syntaxique, aussi appelé étiquetage grammatical ou <a href="https://fr.wikipedia.org/wiki/%C3%89tiquetage_morpho-syntaxique">POS tagging (part-of-speech tagging)</a> est le processus qui consiste à associer aux mots d’un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. à l’aide d’un outil informatique.</p>
<h3>Source 2a</h3>
<p>Dans le cadre du <a href="https://crisco.unicaen.fr/projet-de-modelisation-graphique-de-la-polysemie-evolutive/">projet de modélisation graphique des notices historiques du TLFi</a>, un programme a été créé pour extraire les données de 81 fichiers XML de l’ATILF et les enregistrer au format excel (xlsx). Nous sommes donc partis de ces 81 fichiers tableurs de ce projet pour en créer un unique de 49.854 lignes dont un extrait est donné ci-dessous.</p>
<table border="1" cellpadding="1" cellspacing="1" style="width:500px;">
<thead>
<tr>
<th scope="col">Entrée</th>
<th scope="col">Catégorie grammaticale</th>
</tr>
</thead>
<tbody>
<tr>
<td>absorber</td>
<td>verbe trans.</td>
</tr>
<tr>
<td>accenteur, accentueur</td>
<td>subst. masc.</td>
</tr>
<tr>
<td>despote</td>
<td>subst. masc. et adj.</td>
</tr>
<tr>
<td>déterminé, ée</td>
<td>part. passé, adj. et subst. masc.</td>
</tr>
<tr>
<td>dû, due</td>
<td>part. passé, adj. et subst. masc. sing.</td>
</tr>
<tr>
<td>narquois, -oise</td>
<td>adj. et subst. masc.</td>
</tr>
<tr>
<td>n'est-ce pas</td>
<td>loc. inv.</td>
</tr>
<tr>
<td>neuf1</td>
<td>adj. et subst. masc. inv.</td>
</tr>
<tr>
<td>neuf2, neuve</td>
<td>adj. et subst. masc.</td>
</tr>
</tbody>
</table>
<h3>Source 2b</h3>
<p>Ce fichier plus récent de l’ATILF contient 103.328 lignes. Il est constitué de six colonnes intitulées articleID, parentID, source, content, category, gender, feminine. La table ci-dessous donne quelques exemples d’entrées.</p>
<p><img src="https://www.numerev.com/img/ck_3267_32_image-20240408170115-4.png" style="width: 600px; height: 140px;" /></p>
<p>On remarque que certaines entrées (colonne content) sont présentes sur plusieurs lignes, probablement liées à la notion d’acception. Cette notion d’acceptions est gérée différemmant suivant les dictionnaires. Par exemple, pour <em>accusé</em>, le Grand Robert le présente sur une page en tant que nom et adjectif alors que le TLFi sur <a href="https://www.cnrtl.fr/lexicographie/accusé">deux différentes</a>.</p>
<h2>Méthodologie</h2>
<p>Les différentes étapes sont résumées ci-dessous dans l'ordre chronologique. Elles sont détaillées dans le document de travail.</p>
<h3>Première phase de janvier à novembre 2022</h3>
<h4>Traitement de la source 1</h4>
<p>Comme détaillé dans le document de travail, plusieurs étapes de traitements s’imposaient.</p>
<p>Tout d’abord, nous avons traité les entrées selon les catégories grammaticales : les verbes (6981, traités), les adjectifs (4641), les substantifs (28.588), les adverbes (943).</p>
<p><b>Il faut signaler à ce moment une décision importante</b> : Une entrée présente sur plusieurs lignes finissant par des chiffres (comme MEUBLE ) est considérée comme une acception c’est-à-dire ayant plusieurs sens ou plusieurs origines éthymologiques. <strong>Les codes grammaticaux associés ont donc été séparés par un point virgule</strong>, de façon à les différencier des codes gramaticaux sur une seule ligne.</p>
<p>Par exemple, le champ <i>nature</i> de l’entrée MEUBLE dans le DES est <i>subst. masc.;adj. et subst.;adj.</i></p>
<p>correspondant à <i>bien immobilier</i> (subst. masc.), <i>Qui se laboure ou se travaille facilement</i> (adj.) et <i>Qui peut être transporté d'un lieu à un autre sans subir de détérioration</i> (adj. et subst.)</p>
<p>Ces étapes ont permis de renseigner 50 % (25.383 sur 50.350) de la base du DES.</p>
<p>Ensuite, nous avons procédé à 3 traitements particuliers selon l’extension féminine en seconde colonne :</p>
<ol>
<li>
<p><em>-acte, -aine, -ainte, -aise, -aite, -ale, -als, -aux, -ande, -ane, -anne, -ante, -apse, -arde, -ate, -aude, -aux, -close, -cuite, -dite, -douce, -dure, -ecte, -ienne, -ée, -éenne, -ées, -elle, -ende, -enne, -ente, -ère, -ète, -ette, -eule, -eure et -euse.</em></p>
</li>
<li>
<p><em>-ails, -faite, -fine, -haute, -ie, -ielle, -ienne, -ière, -ile, -ille, -incte, -ine, -ique, -ise, -isse, -ite, -ive, -oise, -onne, -onde, -one, -ote, -otte, -oue, -trice, -ue, -une, -use, aine, ainte, aisceau, aise, aisse, aite, ante, arde, aux, ecte, ée, éenne, elle, ente, ère, erse, erte, ète, ette, euse, ie, ienne, oise, onne, trice.</em></p>
</li>
<li>
<p><em>ale, ande, ane, ate, aude, euse, iale, ienne, ière, ieuse, ile, ine, ite, ive, orse, ose, ote, otte, ouse, oute, ue, une, ure, use, ute</em></p>
</li>
</ol>
<p>Les 2 traitements suivants ont demandé un travail manuel plus important. Nous avons traité 2619 d’entrées avec des orthographes différentes, les mots invariants, les prépositions, les interjections, les onomatopées en écartant les entrées de type « élément formant » (<em>nyct-, oculi-, hodo-,..</em>).</p>
<p>Puis enfin 1551 entrées de type locution à reformater pour être insérés automatiquement (par exemple : CATIMINI (EN) → en catimini, CONTREBORD (À) → à contrebord</p>
<p>La procédure pour ces cinq traitements est détaillée dans les paragraphes « Introduire une première catégorie de mots mélangés » jusqu’à « Introduire une cinquième catégorie de mots mélangés » du document de travail.</p>
<h4>Traitement manuel sans source</h4>
<p>Le traitement suivant est issu d’une constatation simple : parmi les 17.463 entrées dont la catégorie grammaticale n'est pas renseignée, 1.411 d’entre elles commencent par <i>s’</i> ou <i>se</i> s’avèrent être des verbes.</p>
<h4>Traitement de la source 1b</h4>
<p>A partir des 16.052 entrées dans le DES qui n’ont pas de catégories grammaticales, nous avons gardées celles sans aucun espace soit 10.139 pour lesquelles la librairie Spacy apportait une réponse sur le code grammatical.</p>
<p>Ce résultat a été traité selon les catégories :</p>
<ul>
<li>
<p>Tout d’abord 588 entrées se terminant par <i>-er </i>et <i>-ir</i> avec le code « POS VERB » ont été vérifiées. Quelques corrections ont été réalisées comme <i>décrottoir, débirentier ou parmentier</i>.</p>
</li>
<li>
<p>Ensuite, nous corrigons les entrées finissant par <i>é</i> considérées à tort comme verbe et que nous avons noté comme participe passé. Puis les entrées avec le code PROPN ( noms propres), PUNCT (ponctuations) ont été corrigées manuellement. Enfin celles avec le code NOUN et ADJ ont été sommairement vérifiées. Cela concerne un total de 951 lignes.</p>
</li>
<li>
<p>Puis nous avons pris en compte les entrées avec des tirets et des apostrophes, nous récupérons ainsi 328 verbes commençant par <i>s’</i> , 404 adverbes et 275 substantifs finissant par <i>-ment</i>.</p>
</li>
<li>
<p>Pour les entrées commençant par <i>à</i> , nous avons considéré que toute expression commencant ainsi est considérée comme adjectif si elle figure à droite d’un substantif (<i>un projet à bas coût</i>) ou comme adverbe à droite d’un verbe ou d’un participe (<i>poursuivre un projet à marche forcée ; évaluer un coût à la louche</i>). Depuis quelques décennies on emploie les codes adj. et adv. comme des catégories fonctionnelles au-delà de leur définition morphologique classique. Nous avons choisi de tout étiqueter en adverbe et celles présentées sur la <a href="https://fr.wiktionary.org/wiki/Cat%C3%A9gorie:Locutions_adjectivales_en_fran%C3%A7ais">page wiktionary des locutions adjectivales en français</a> ont été corrigées.</p>
</li>
<li>
<p>La vérification de 4608 entrées retournées par Spacy comme étant « NOUN » :</p>
<ul>
<li>
<p>200 d’entre elles se terminant par <i>er, ir </i>et <i>dre </i>ont été vérifiées : 32 étaient des verbes.</p>
</li>
<li>
<p>la vérification de 534 entrées se terminant par -<i>eur, -ire</i> et <i>-oir</i> n’a décelé qu’une erreur (<i>stupéfaire </i>: verbe)</p>
</li>
<li>
<p>les entrées restantes sont restées des substantifs.</p>
</li>
</ul>
</li>
</ul>
<h4>Traitement manuel sans source</h4>
<p>Les 8488 entrée du DES sans catégorie grammaticale ont été vérifiées par plusieurs personnes selon plusieurs types de filtrage détaillés dans le document de travail sus-cité.</p>
<h4>Vérifications</h4>
<p>Il nous semblé intéressant de mettre en place des tests pouvant potentiellement faire apparaître des incohérences. Par exemple, si une entrée de type verbe sans être substantif, ni adjectif, ni adverbe, ni locution, est synonyme d’une entrée qui n’est ni un verbe, ni un adverbe ni une locution, alors une vérification s’imposait. L’ensemble des tests est donné dans la table 9 du document de travail.</p>
<p>250 entrées ont été corrigées.</p>
<h3>Seconde phase de juin à novembre 2023</h3>
<p>Cette seconde phase a permis, non pas de renseigner les catégorires grammaticales des entrées du DES puisqu’elles l’étaient toutes, mais plutôt de comparer le DES avec ces deux sources afin de corriger et de compléter les catégories grammaticales.</p>
<h4>Traitement de la source 2a</h4>
<p>Nous avons cherché tout d’abord à calculer des indicateurs généraux pour comparer les 2 sources :</p>
<p>— Nombre entrées dans le DÉS : 50.420</p>
<p>— Nombre entrées dans le TLFi : 49.854</p>
<p>— Nombre d’entrées en commun DÉS- TLFi : 24.210</p>
<p>— Nombre d’entrées en commun avec la même catégorie grammaticale (code 1) : 23.548</p>
<p>— Nombre d’entrées en commun avec les cat gram du DÉS incluses dans TLFI (code 2) : 449</p>
<p>— Nombre d’entrées en commun avec les cat gram du DÉS différentes du TLFI (code 3) : 213</p>
<p>— Nombre d’entrées dans le DÉS absentes du TLFi (code 4) : 26.209</p>
<p>— Nombre d’entrées dans le TLFi absentes du DÉS (code 5) : 25.644</p>
<p>Suite au traitement des entrées différentes selon les codes 2 et 3, nous avons conclu que les catégories grammaticales de :</p>
<p>- 91 entrées (code 2) et 120 (code 3) étaient à corriger manuellement</p>
<p>- 358 entrées (code 2) étaient du à une codification différerentes pour les verbes</p>
<p>- 93 entrées (code3) étaient du à des inversions (par exemple, "adj. et subst." d’un coté et "subst. et adj." de l’autre)</p>
<h4>Traitement de la source 2b</h4>
<p>Nous avons comme pour la source précédente calculé des indicateurs :</p>
<p>- Nombre d’entrées dans le TLFi2 : 103.328</p>
<p>- Nombre d’entrées uniques dans le TLFi2 : 89.392</p>
<p>- Nombre d’entrées en commun DÉS- TLFi2 : 37.427</p>
<p>- Nombre d’entrées dans le DÉS absentes du TLFi2 : 13.007</p>
<p>- Nombre d’entrées dans le TLFi2 absentes du DÉS : 51.965</p>
<p>Sur le 37.427 entrées communes, nous avons réalisé un traitement pour ne retenir que les entrées à vérifier.</p>
<p>L’algorithme du traitement est le suivant :</p>
<p><img src="https://www.numerev.com/img/ck_3267_32_image-20240411145830-1.png" style="width: 600px; height: 297px;" /></p>
<p>Les 336 entrées pour lesquelles la colonne « ok ? » est à False ont été vérifiées manuellement et corrigées dans la base du DES.</p>
<h4>Vérifications</h4>
<p>Pour ces dernières vérifications, nous sommes repartis sur une règle simple : pour deux mots synonymes, mot1 et mot2, si une des catégories grammaticales de l’un est présente dans l’autre, alors nous n’effections pas de vérification.</p>
<p>Cela donnait toutefois 5.828 lignes à revoir, ce qui était impossible à vérifier à la main. Nous avons donc exclu des liaisons qui vérifaient les critères des tables 14 et 15 du document de travail.</p>
<p>Les 725 lignes restantes ont été vérifiées manuellement (Voir le <a href="https://git.unicaen.fr/crisco-des-public/descatgram/-/blob/master/CatGramErreursAcceptionsRecup_2023-07-13.csv">fichier CatGramErreursAcceptionsRecup_2023-07-13.csv</a> sur le git).</p>
<h2>Présentation du contenu et de l’organisation du jeu de données</h2>
<p>Le champ <i>nature</i> des 50.000 entrées du DES sont renseignées avec une des 476 combinaisons de codes grammaticaux enregistrés. L’ensemble de ses combinaisons est présent sur le git public (<a href="https://git.unicaen.fr/crisco-des-public/descatgram/-/blob/master/catgram_20240411.csv?ref_type=heads">https://git.unicaen.fr/crisco-des-public/descatgram/-/blob/master/catgram_20240411.csv</a>). La table ci-dessous en donne un extrait :</p>
<p><img src="https://www.numerev.com/img/ck_3267_32_image-20240411150008-2.png" style="width: 600px; height: 460px;" /></p>
<h2>Modalités d’accès aux données</h2>
<p>L’ensemble des données du DES sont téléchargeables sur la plate-forme ORTOLANG pour la communauté scientifique (authentification requise).</p>
<p>L’accès au git public du projet est https://git.unicaen.fr/crisco-des-public/descatgram/</p>
<p> </p>
<h1>L’exploitation des données : analyse et interprétations</h1>
<p>L’ajout de cette information supplémentaire va permettre de filtrer selon :</p>
<p>- les catégories grammaticales</p>
<p>- les entrées ayant plusieurs sens par la présence d’un point virgule séparant les codes (acceptions)</p>
<p>- de faciliter des recherches spéciales comme les entrées étant à la fois verbe et substantifs ou toutes les locutions, etc...</p>
<h1>Perspectives de réutilisation</h1>
<p>Il est envisagé d’afficher la nature de l’entrée dans l’interface graphique du DES.</p>
<p> </p>
<p>De plus, d’autres corpus lexicaux, notamment sur la plate-forme ORTOLANG, peuvent être étudiés pour échanger avec les auteurs et enrichir le DES.</p>
<p> </p>