<p>%% -*- TeX -*- -*- FR -*-</p> <p>%Avant propos : ces exemples de fichiers ont &eacute;t&eacute; mis &agrave; jour gr&acirc;ce &agrave;<br /> %l&#39;aide pr&eacute;cieuse de Gilbert Ritschard. Pour toute question ou<br /> %remarque n&#39;h&eacute;sitez pas &agrave; nous contacter : venturin@univ-tours.fr ou<br /> %gilbert.ritschard@themes.unige.ch<br /> %Version 3 2008-05-21<br /> %Version 3.1 2012-11-26 Bruno Pinaud &lt;bruno.pinaud@labri.fr&gt;<br /> %Version 3.2 2016-06-02 Bruno Pinaud &lt;bruno.pinaud@labri.fr&gt;</p> <p>documentclass[a4paper,french]{rnti}<br /> %documentclass[a4paper,french,submission]{rnti} &nbsp;%% pour soumission &agrave; EGC</p> <p>%documentclass[a4paper,french,noresume,nosummary]{rnti} %% Pour papier de 2 pages</p> <p>%%% Avec l&#39;option &quot;showlayout&quot; vous obtenez les deux pages<br /> %%% de contr&ocirc;le des param&egrave;tres de mise en page.</p> <p>%documentclass[a4paper,footer,french,showlayout]{rnti}</p> <p>%packages n&eacute;cessaires pour &eacute;crire des articles en fran&ccedil;ais en utilisant les accents non latex.<br /> usepackage[T1]{fontenc}<br /> usepackage[utf8]{inputenc}</p> <p>%pour bien pr&eacute;senter les URL et autres adresses emails<br /> usepackage{url}<br /> usepackage{xcolor}<br /> usepackage{graphicx}<br /> usepackage{caption}<br /> usepackage[hyperfootnotes=false,colorlinks=true,citecolor=blue,urlcolor=blue,filecolor=blue,backref=page]{hyperref}</p> <p>%% ML a ajout&eacute; cela<br /> usepackage{multicol}<br /> usepackage{scrextend}<br /> usepackage{amssymb}<br /> usepackage{amsmath}<br /> usepackage{ragged2e}</p> <p>% Titre court pour ent&ecirc;te<br /> itrecourt{Extraction de connaissances pour l&#39;accompagnement de d&eacute;bats en ligne}</p> <p>% Noms auteurs pour ent&ecirc;te :<br /> % &nbsp; &nbsp;Si un seul auteur, mettre : Initiale. NomPremierAuteur<br /> % &nbsp; &nbsp;Si deux auteurs, mettre : Initiale1. NomPremierAuteur et Initiale1. NomDeuxiemeAuteur<br /> % &nbsp; &nbsp;Si plus de deux auteurs, mettre comme ci-dessous<br /> %<br /> omcourt{I.Ben Sassi et al.}</p> <p><br /> itre{D&eacute;bats en ligne : l&#39;analyse formelle de concepts comme outil d&#39;extraction de connaissances\<br /> {large extit{Online debates: Formal Concept Analysis as a Knowledge Extraction Tool}}&nbsp;<br /> }%Extraction de connaissances bas&eacute;e sur l&#39;analyse formelle de concepts en vue de l&#39;assistance aux d&eacute;bats en ligne}</p> <p>auteur{Imen Ben Sassi,<br /> &nbsp; &nbsp; &nbsp; &nbsp; Hani Guenoune,<br /> &nbsp; &nbsp; &nbsp; &nbsp; Alexandre Bazin, %affilsepaffil{2},<br /> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Marianne Huchard,\<br /> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Mathieu Lafourcade,<br /> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Jean Sallantin}</p> <p>affiliation{<br /> &nbsp; &nbsp; LIRMM, Universit&eacute; de Montpellier, CNRS, Montpellier, France\<br /> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; %prenom.nom@lirmm.fr<br /> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; imen.ben-sassi@lirmm.fr, hani.guenoune@lirmm.fr, alexandre.bazin@lirmm.fr,\ marianne.huchard@lirmm.fr, mathieu.lafourcade@lirmm.fr, jean.sallantin@lirmm.fr<br /> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; %mail\<br /> &nbsp;}<br /> &nbsp;<br /> &nbsp;<br /> ewcommand{ b}[2]{<br /> &nbsp; &nbsp; fbox{fseriessffamilyscriptsize#1}%<br /> &nbsp; &nbsp; {sfsmall extit{ extcolor{blue}{#2}}}%<br /> }<br /> ewcommandAB[1]{ b{Alexandre}{#1}}<br /> &nbsp;<br /> usepackage{rotating}</p> <p>usepackage{algorithm}<br /> usepackage{algpseudocode}</p> <p> enewcommand{listalgorithmname}{Liste des algorithmes}<br /> floatname{algorithm}{Algorithme}<br /> enewcommand{algorithmicreturn}{ extbf{retourner}}<br /> enewcommand{algorithmicprocedure}{ extbf{proc&eacute;dure}}<br /> enewcommand{And}{ extbf{et} }<br /> enewcommand{algorithmicrequire}{ extbf{Entr&eacute;e:}}<br /> enewcommand{algorithmicensure}{ extbf{Sortie:}}<br /> % enewcommand{algorithmiccomment}[1]{{#1}}<br /> enewcommand{algorithmicend}{ extbf{fin}}<br /> enewcommand{algorithmicif}{ extbf{si}}<br /> enewcommand{algorithmicthen}{ extbf{alors}}<br /> enewcommand{algorithmicelse}{ extbf{sinon}}<br /> enewcommand{algorithmicfor}{ extbf{pour}}<br /> enewcommand{algorithmicforall}{ extbf{pour tout}}<br /> enewcommand{algorithmicdo}{ extbf{faire}}<br /> enewcommand{algorithmicwhile}{ extbf{tant que}}<br /> ewcommand{algorithmicelsif}{algorithmicelse algorithmicif}<br /> ewcommand{algorithmicendif}{algorithmicend algorithmicif}<br /> ewcommand{algorithmicendfor}{algorithmicend algorithmicfor}</p> <p>&nbsp;&nbsp;<br /> esume{Nous pr&eacute;sentons un processus automatis&eacute; d&#39;assistance aux d&eacute;bats qui cible l&#39;extraction d&#39;associations entre les termes &agrave; partir des listes de termes-cl&eacute;s issues des arguments. Ces listes sont co-&eacute;labor&eacute;es par les utilisateurs et notre syst&egrave;me d&#39;indexation. Notre approche cherche &agrave; inciter les utilisateurs &agrave; proposer des termes-cl&eacute;s, stimulant ainsi leur participation et favorisant l&#39;intelligibilit&eacute; de leur propos. L&#39;indexation sert de levier pour amener les utilisateurs &agrave; am&eacute;liorer et &agrave; enrichir les listes de termes-cl&eacute;s, agissant comme un moteur pour la cr&eacute;ation de propos structur&eacute;es.<br /> L&#39;algorithme sous-jacent repose sur une analyse formelle de concepts et exploite une base de connaissances, le r&eacute;seau lexico-s&eacute;mantique JeuxDeMots (JDM). La proc&eacute;dure implique plusieurs modules, aboutissant &agrave; une &eacute;tape d&#39;extraction de connaissances sous forme d&#39;implications destin&eacute;es &agrave; &ecirc;tre int&eacute;gr&eacute;es dans JDM. Cette approche collaborative permet &agrave; la base de connaissances de s&#39;enrichir au fur et &agrave; mesure de l&#39;analyse des d&eacute;bats, am&eacute;liorant ainsi les termes-cl&eacute;s sugg&eacute;r&eacute;s par la plate-forme.\<br /> MotsCles{Extraction de connaissances, Analyse formelle de concepts, Indexation th&eacute;matique, Augmentation s&eacute;mantique, Base de connaissances}<br /> }</p> <p>summary{<br /> We present an online debate analysis automated process aiming to extract new associations between terms from co-constructed keyword lists of arguments by users and our indexing system.% The designed mechanism encourages users to propose keywords, thereby enhancing their participation.<br /> The calculation of keywords encourages users to supplement or correct the keyword list, serving as an incentive tool for developing more structured contributions. The algorithm is based on formal concept analysis and relies on the JeuxDeMots knowledge base. The procedure involves multiple modules leading to a knowledge extraction step in the form of implications intended to be integrated into JDM. This cooperative approach allows the knowledge base to enrich itself as debates are analyzed, improving the platform&#39;s suggested keywords.\<br /> %TC:ignore<br /> keywords{Knowledge extraction, Formel concept analysis, Thematic indexing, Semantic augmentation, Knowledge base}<br /> }</p> <p><br /> egin{document}<br /> %layout<br /> % DEBUT DE L&#39;ARTICLE<br /> %<br /> ewpage<br /> section{Introduction}</p> <p><br /> %contribution<br /> % un interet du travail pr&eacute;senter est le couplage entre une approche structurelle ensembliste, l&#39;AFC et une approche semantique fond&eacute; sur des inf&eacute;rences &nbsp;&agrave;a la kb (jdm)&nbsp;<br /> %<br /> Le projet AREN-DIA (ARgumentation Et Num&eacute;rique - Didactique &amp; Intelligence Artificielle)footnote{Ce projet est financ&eacute; par l&rsquo;Agence Nationale de la Recherche : ANR-22-FRAN-0001.} a pour objectif de sensibiliser les &eacute;l&egrave;ves, aussi bien sur les aspects de forme que ceux de fond, &agrave; la pratique du d&eacute;bat dans le cadre de leur &eacute;ducation &agrave; la citoyennet&eacute;.<br /> Le projet se concr&eacute;tise par la cr&eacute;ation d&#39;une plate-forme de d&eacute;bats, qui s&#39;ouvre &eacute;galement la soci&eacute;t&eacute; civile. Les d&eacute;bats men&eacute;s sur l&#39;application cherchent &agrave; assurer une &eacute;thique et une structuration des propos du d&eacute;bat.<br /> %L&#39;&eacute;volution du projet AREN se mat&eacute;rialise &agrave; travers la cr&eacute;ation et la mise &agrave; l&#39;&eacute;preuve d&#39;un logiciel de d&eacute;bat au sein d&#39;un environnement lyc&eacute;en. Ce logiciel se d&eacute;marque par deux avanc&eacute;es significatives.<br /> En offrant la possibilit&eacute; d&#39;engager des d&eacute;bats structur&eacute;s &agrave; partir d&#39;un texte, la plate-forme ARENfootnote{La plate-forme est accessible via le lien suivant : scriptsizeurl{https://portail-aren.lirmm.fr/aren2023/}} propose une approche renouvelant les &eacute;changes argumentatifs traditionnels. Autre fait int&eacute;ressant, l&#39;application pr&eacute;sente la particularit&eacute; d&#39;int&eacute;grer une technologie collaborative de Traitement Automatique du Langage dont la finalit&eacute; est d&#39;augmenter l&#39;efficacit&eacute; du processus de d&eacute;bat.<br /> medbreak<br /> Dans cette perspective, AREN-DIA se d&eacute;ploie selon un axe didactique et un axe IA. Les exp&eacute;riences didactiques men&eacute;es au sein des lyc&eacute;es ont conduit &agrave; des r&eacute;sultats r&eacute;v&eacute;lant un essor marqu&eacute; des comp&eacute;tences argumentatives chez les &eacute;l&egrave;ves, particuli&egrave;rement avec une utilisation de AREN judicieuse et ins&eacute;r&eacute;e dans un dispositif didactique appropri&eacute; citep{bachtold:2023}.&nbsp;<br /> medbreak<br /> Concernant l&#39;axe IA et ses enjeux, nous consacrons cet article &agrave; la pr&eacute;sentation et l&#39;&eacute;valuation des diff&eacute;rents modules mis en place afin d&#39;accompagner le d&eacute;bat. Au niveau g&eacute;n&eacute;ral, nous nous int&eacute;ressons &agrave; la mani&egrave;re de concevoir un m&eacute;canisme de renforcement incitant les utilisateurs &agrave; participer &agrave; l&#39;am&eacute;lioration du syst&egrave;me d&#39;IA produisant une repr&eacute;sentation structur&eacute;e des propos d&#39;un d&eacute;bat.&nbsp;<br /> medbreak<br /> La plate-forme se pr&eacute;sente comme un espace de d&eacute;bat, r&eacute;unissant un ensemble d&#39;utilisateurs. Le d&eacute;bat porte sur un texte support publi&eacute; en amont sur la plate-forme.&nbsp;<br /> Les utilisateurs interviennent &agrave; travers des commentaires exprimant une opinion, une argumentation ou un avis sur un segment du texte support ou un commentaire pr&eacute;alablement publi&eacute;, cr&eacute;ant ainsi des embranchements dans l&#39;arbre g&eacute;n&eacute;ral du d&eacute;bat. &nbsp;<br /> medbreak<br /> Outre l&#39;intervention des d&eacute;battants, une proc&eacute;dure automatique vient compl&eacute;ter chaque commentaire en sugg&eacute;rant des termes-cl&eacute;s synth&eacute;tisant les propos tenus. Cette op&eacute;ration d&#39;indexation repr&eacute;sente le point de d&eacute;part de l&#39;analyse et de l&#39;accompagnement du d&eacute;bat par la machine. Elle est soumise &agrave; une compl&eacute;tion par les utilisateurs, qui seront invit&eacute;s &agrave; valider, invalider ou compl&eacute;ter ces termes-cl&eacute;s par ceux qu&#39;ils estiment manquants.&nbsp;<br /> Afin de lever l&#39;ambigu&iuml;t&eacute; s&eacute;mantique r&eacute;sultant de la polys&eacute;mie des termes propos&eacute;s, nous avons recours &agrave; une &eacute;tape d&#39;enrichissement s&eacute;mantique des termes pour les pr&eacute;parer &agrave; l&#39;op&eacute;ration d&#39;extraction de connaissances &nbsp;bas&eacute;e sur l&#39;analyse formelle de concepts &nbsp;(AFC). Ces connaissances, sous forme d&#39;implications, seront utilis&eacute;es pour mettre &agrave; jour les relations dans la base de connaissances exploit&eacute;e lors de ces processus, JeuxDeMots (JDM) footnote{scriptsizeurl{https://fr.wikipedia.org/wiki/JeuxDeMots}}.<br /> medbreak<br /> L&#39;article s&#39;organise comme suit. Nous d&eacute;taillons les &eacute;tapes du fonctionnement g&eacute;n&eacute;ral d&#39;AREN dans la section~ ef{aren}. Nous nous pencherons &eacute;galement sur l&#39;algorithme d&#39;accompagnement du d&eacute;bat dans la section ef{algo}, qui consiste en la production de termes-cl&eacute;s et d&#39;une analyse AFC pour produire des associations de termes pertinentes. Nous d&eacute;finissons ensuite, dans la section~ ef{MesuresEal}, les diff&eacute;rentes m&eacute;triques utilis&eacute;es pour &eacute;valuer l&#39;utilit&eacute; de l&#39;augmentation s&eacute;mantique des termes d&#39;indexation des propos du d&eacute;bat.&nbsp;<br /> Nous comparons, dans la section~ ef{resultats}, les r&eacute;sultats obtenus avec l&#39;AFC avant et apr&egrave;s l&#39;enrichissement s&eacute;mantique des termes d&#39;indexation.&nbsp;<br /> Nous nous penchons, dans la section~ ef{conclusion}, sur les d&eacute;fis sp&eacute;cifiques rencontr&eacute;s dans AREN, notamment l&#39;int&eacute;raction homme-machine et l&#39;&eacute;valuation des implications obtenues avec l&#39;AFC.</p> <p><br /> %%%%%%%%%%%%%extensions possibles<br /> %%%%%%%%%%%%%<br /> %fusionner introduction et fonctionnement d&#39;AREN<br /> %ajouter section &eacute;tat de l&#39;art<br /> %partie 1: enrichissement s&eacute;mantique dans le domaine NLP<br /> %partie 2: mesure d&#39;&eacute;valuation de r&egrave;gles<br /> %ajouter les algos de notre approche: ind&eacute;xation (Id&eacute;fix) + augmentation s&eacute;mantique (raffinement) + extraction d&#39;implication (g&eacute;n&eacute;ration d&#39;irr&eacute;ductibles)<br /> %ajouter les xp du d&eacute;bat sur l&#39;IA (lancer le d&eacute;bat)<br /> %%%%%%%%%%%%%%</p> <p><br /> section{Fonctionnement de la plate-forme AREN}label{aren}</p> <p>L&#39;application constitue un espace de d&eacute;bat, faisant intervenir un ensemble d&rsquo;utilisateurs. Un d&eacute;bat porte sur un texte support publi&eacute; en amont sur la plate-forme, il est conjointement form&eacute; par le contenu du texte ainsi qu&#39;un ensemble de commentaires cr&eacute;&eacute;s par les utilisateurs et exprimant une opinion cibl&eacute;e, une argumentation ou un avis sur un segment du texte support ou un commentaire pr&eacute;alablement publi&eacute;.</p> <p>Chaque intervention utilisateur comporte une extit{position} (d&#39;accord ou pas d&#39;accord), une extit{reformulation}, une extit{argumentation} et des extit{mot-cl&eacute;s}.<br /> La partie du texte que l&#39;utilisateur souhaite commenter est choisie en s&eacute;lectionnant, dans le texte de d&eacute;part, le segment correspondant.<br /> La possibilit&eacute; de s&eacute;lectionner un segment aussi bien dans le texte support que dans un commentaire pr&eacute;alablement publi&eacute;, permet la cr&eacute;ation d&#39;embranchements dans l&#39;arbre g&eacute;n&eacute;ral du d&eacute;bat (c.f. Figure~ ef{figure:aren}).</p> <p>egin{figure}[!h]<br /> egin{center}<br /> includegraphics[width=1 extwidth]{AREN.png}<br /> caption{Fonctionnement de la plate-forme AREN sous forme de cycles entre les interactions utilisateurs, le calculateur de termes-cl&eacute;s extit{ID&Eacute;FIX}, l&#39;analyse formelle de concepts (AFC), et la base de connaissance JeuxDeMots. }<br /> label{figure:aren}<br /> end{center}<br /> end{figure}&nbsp;</p> <p>Les commentaires sont constitu&eacute;s d&#39;un ensemble d&#39;informations construisant le propos de l&#39;utilisateur, parmi ces informations se d&eacute;finit, entre autres, la position que prend le d&eacute;battant (d&#39;accord, pas d&#39;accord) vis-&agrave;-vis de la s&eacute;lection (le segment auquel il r&eacute;agit).<br /> Les champs de texte libres, de extit{reformulation} et extit{d&#39;argumentation}, sont pr&eacute;vus afin de consolider puis d&eacute;finir, l&#39;avis du d&eacute;battant.</p> <p>%vskip -4mm</p> <p>section{Algorithme d&#39;accompagnement des d&eacute;bats}label{algo}</p> <p>Nous pr&eacute;sentons dans cet article &nbsp;une IA d&#39;accompagnement de d&eacute;bats, KeepTalk ( extit{Knowledge Extraction for Enhanced online Public Talks and Argumentative Learning Know-how}), dont un des objectifs est d&#39;extraire des associations nouvelles entre termes &agrave; partir des listes de termes-cl&eacute;s des arguments d&#39;un d&eacute;bat.&nbsp;</p> <p>L&#39;approche est organis&eacute;e en plusieurs modules aboutissant &agrave; une &eacute;tape d&#39;extraction de connaissances (c.f. Section~ ef{ExtractionConnaissances}) aliment&eacute;e par l&#39;analyse formelle de concepts. Apr&egrave;s augmentation lexicale (c.f. Section~ ef{AugmentationS&eacute;mantique}), cette &eacute;tape permet de cr&eacute;er des implications entre termes (par exemple, si A est pr&eacute;sent alors B et C sont aussi pr&eacute;sents).<br /> Les implications produites sont destin&eacute;es &agrave; &ecirc;tre introduites dans la base de connaissances. Par exemple, si nous avons $A ightarrow B, C$, alors dans le r&eacute;seau lexical JDM nous ajouterons : A extit{r\_associated} B et A extit{r\_associated} C.&nbsp;<br /> medbreak<br /> La proc&eacute;dure de description th&eacute;matique (c.f. Section~ ef{indexationThem}) sur laquelle s&#39;assoit l&#39;algorithme s&#39;inscrit dans une d&eacute;marche collaborative, it&eacute;rative et incr&eacute;mentale. Les ensembles de termes indexant chaque commentaire sont co-construits d&#39;un c&ocirc;t&eacute;, par la proc&eacute;dure automatis&eacute;e ({small extit{ID&Eacute;FIX}}), et de l&#39;autre, par une extit{supervision} et extit{compl&eacute;tion} par les utilisateurs des termes extraits par {small extit{ID&Eacute;FIX}}. Cette supervision est permise en donnant &agrave; l&#39;utilisateur la possibilit&eacute; de extit{proposer, valider ou invalider} des termes de l&#39;ensemble propos&eacute; par l&#39;IA accompagnant le d&eacute;bat. Ce retour est pris en compte lors des it&eacute;rations de descriptions th&eacute;matiques ult&eacute;rieures, menant &agrave; une indexation de meilleure qualit&eacute;. L&#39;objectif &eacute;tant d&#39;assurer une am&eacute;lioration de la base de connaissances &agrave; mesure que des d&eacute;bats sont analys&eacute;s, avec en retour une am&eacute;lioration des termes-cl&eacute;s sugg&eacute;r&eacute;s par la plate-forme (via extit{ID&Eacute;FIX}) pour les arguments d&#39;un d&eacute;bat.&nbsp;<br /> medbreak<br /> En outre, ce m&eacute;canisme est pens&eacute; de mani&egrave;re &agrave; inciter les utilisateurs &agrave; proposer des termes-cl&eacute;s compl&eacute;tant les propos du d&eacute;bat. Plus pr&eacute;cis&eacute;ment, le calcul automatique de termes-cl&eacute;s pour un argument est un moyen de donner envie aux utilisateurs, et en particulier &agrave; l&#39;auteur de l&#39;argument, de compl&eacute;ter voire de corriger la liste des termes-cl&eacute;s propos&eacute;s. Un mauvais terme-cl&eacute; sera en g&eacute;n&eacute;ral consid&eacute;r&eacute; par l&#39;utilisateur comme une tache/erreur insupportable devant &ecirc;tre nettoy&eacute;e/corrig&eacute;e.<br /> %Ce fonctionnement pourra servir d&#39;outil de relance ou d&#39;incitation &agrave; l&#39;&eacute;laboration de points de vue, sous une forme autre que celle du commentaire textuel brut.</p> <p>subsection{Indexation th&eacute;matique}label{indexationThem}</p> <p>Les divers arguments des participants au d&eacute;bat sont contenus dans des textes bruts et non-structur&eacute;s. L&#39;indexation th&eacute;matique des commentaires a pour objectif d&#39;associer ces donn&eacute;es textuelles &agrave; une repr&eacute;sentation structur&eacute;e permettant de synth&eacute;tiser les propos par des ensembles de termes-cl&eacute;s, r&eacute;f&eacute;renc&eacute;s dans des bases de connaissances et pouvant servir de point d&#39;entr&eacute;e &agrave; une proc&eacute;dure automatis&eacute;e. Les termes extraits peuvent d&eacute;signer des concepts &eacute;voqu&eacute;s dans le texte ou des unit&eacute;s lexicales dont la saillance au sein du commentaire est jug&eacute;e importante. &nbsp;Cette &eacute;tape d&#39;extraction de mots-cl&eacute;s s&#39;appuie sur des connaissances externes issues du r&eacute;seau lexico-s&eacute;mantique&nbsp;<br /> extit{JDM} citep{lafourcade:2023}<br /> , et est r&eacute;alis&eacute;e par le service {small extit{ID&Eacute;FIX}}footnote{L&#39;outil {scriptsize extit{ID&Eacute;FIX}} est accessible via le lien : scriptsizeurl{https://www.jeuxdemots.org/intern_extract.php}}.&nbsp;</p> <p>%%&nbsp;<br /> %% JDM<br /> %%<br /> %%<br /> ewpage<br /> %%<br /> %% JeuxDeMots<br /> subsubsection*{hspace{parindent}JeuxDeMots, un r&eacute;seau lexico-s&eacute;mantique}<br /> extit{JDM} est un r&eacute;seau lexico-s&eacute;mantique sous forme de graphe orient&eacute;. Les n&oelig;uds du graphe repr&eacute;sentent les termes, tandis que les arcs d&eacute;signent des relations typ&eacute;es, pond&eacute;r&eacute;es et potentiellement annot&eacute;es entre les termes (c.f. Figure~ ef{figure:JDM}).<br /> medbreak<br /> egin{figure}[!ht]<br /> egin{center}<br /> includegraphics[width=0.8 extwidth]{rezolexical2.jpg}<br /> caption{Portion du r&eacute;seau lexico-s&eacute;mantique JeuxDeMots. Deux raffinements du terme extit{souris} sont indiqu&eacute;s et sont l&#39;objet d&#39;une association contrastive (une positive et une n&eacute;gative) par le type r\_patient pour un pr&eacute;dicat li&eacute; au terme extit{attraper}. Le chat peut attraper une souris&gt;rongeur, mais il ne peut pas attraper une souris&gt;fille.}<br /> label{figure:JDM}<br /> end{center}<br /> end{figure}&nbsp;<br /> medbreak</p> <p>Le graphe repr&eacute;sente la polys&eacute;mie des mots en explicitant des raffinements s&eacute;mantiques hi&eacute;rarchis&eacute;s, o&ugrave; un sens sp&eacute;cifique est affili&eacute; au sens g&eacute;n&eacute;ral du terme (via une relation de type exttt{r\_raff} de poids positif).<br /> Bas&eacute; sur une s&eacute;rie de notions, principes et outils originaux (ex. la notion de raffinement, la palette des types de relations s&eacute;mantiques - les &eacute;l&eacute;ments d&#39;information, des liens s&eacute;mantiques entre un type de relation et son inverse ( extit{r\_isa} et extit{r\_hypo}, par exemple), l&#39;outil contributif extit{Diko}, etc.), %<br /> le r&eacute;seau JDM est con&ccedil;u pour une utilisation humaine, mais en premier lieu comme support de connaissances pour des processus d&#39;intelligence artificielle (analyse s&eacute;mantique de texte, raisonnement, assistance &agrave; la prise de d&eacute;cision, r&eacute;sum&eacute; automatique, etc.).\ Un syst&egrave;me de pond&eacute;ration (arcs pond&eacute;r&eacute;s, &eacute;ventuellement n&eacute;gatifs) et de valuation symbolique (annotation en m&eacute;ta-informations, par exemple : rare, pertinent, non pertinent, etc.) a &eacute;t&eacute; mis en &oelig;uvre pour faciliter des heuristiques de parcours du graphe ainsi que son exploitation. Au 1er janvier 2024, JDM contient environ $560$ millions de relations entre plus de $7$ millions de termes et $22$ millions de n&oelig;uds.<br /> medbreak<br /> Le r&eacute;seau extit{JDM} peut &ecirc;tre utilis&eacute; avec des algorithmes classiques exploitant des bases de connaissances, mais &eacute;galement sous forme de r&eacute;seau neuronal (approches hybrides, algorithmes de propagation et de r&eacute;tro-propagation, etc.). Parmi ces algorithmes, nous pr&eacute;sentons deux taches qui sont d&#39;int&eacute;r&ecirc;t pour le projet AREN : le raffinement lexical et le calcul de termes-cl&eacute;s &agrave; partir d&#39;un texte.</p> <p>%%<br /> %% Bell&eacute;rophon<br /> subsubsection*{hspace{parindent}Bell&eacute;rophon : raffinement lexical}<br /> Bell&eacute;rophonfootnote{{scriptsizeurl{https://www.jeuxdemots.org/intern_desamb.php}}} est un service fourni par la plate-forme JeuxDeMots, qui &agrave; partir d&#39;une liste de termes, permet de s&eacute;lectionner les sens probables des termes polys&eacute;miques de la liste. Par exemple, &agrave; partir de la liste qui suit :</p> <p>egin{center}<br /> chat * souris * attraper<br /> end{center}</p> <p>Nous obtenons le r&eacute;sultat d&#39;activation des raffinements ci-dessous :<br /> egin{multicols}{2}<br /> egin{center}<br /> &nbsp; &nbsp; &nbsp;souris&gt;rongeur &nbsp;/ 595 \<br /> &nbsp; &nbsp; chat&gt;mammif&egrave;re &nbsp;/ 582 \<br /> &nbsp; &nbsp; chat&gt;mammif&egrave;re&gt;f&eacute;lin / 228 \<br /> &nbsp; &nbsp; attraper&gt;capturer &nbsp;/ 133 \<br /> &nbsp; &nbsp; chat&gt;mammif&egrave;re&gt;m&acirc;le &nbsp;/ 68 \<br /> &nbsp; &nbsp; &nbsp; ule{0.5linewidth}{1pt} \<br /> &nbsp; &nbsp; &nbsp; &nbsp;chat&gt;marine&gt;b&acirc;timent de manutention &nbsp;/ 0 \<br /> &nbsp; &nbsp; chat&gt;marine&gt;yacht &nbsp;/ 0 \<br /> &nbsp; &nbsp; attraper&gt;gronder &nbsp;/ 0 \<br /> &nbsp; &nbsp; attraper&gt;contracter / 0 \<br /> &nbsp; &nbsp; chat&gt;soldat &nbsp;/ 0 \<br /> &nbsp; &nbsp; ule{0.5linewidth}{1pt} \<br /> &nbsp; &nbsp; &nbsp; &nbsp; souris&gt;naseau des chevaux &nbsp;/ -2 \<br /> &nbsp; &nbsp; souris&gt;couleur &nbsp;/ -2 \<br /> &nbsp; &nbsp; souris&gt;terme d&#39;affection &nbsp;/ -2 \<br /> &nbsp; &nbsp; souris&gt;gigot &nbsp;/ -3 \<br /> &nbsp; &nbsp; chat&gt;enrouement &nbsp;/ -5 \<br /> &nbsp; &nbsp; chat&gt;palatine &nbsp;/ -5 \<br /> &nbsp; &nbsp; chat&gt;jeu &nbsp;/ -8 \<br /> &nbsp; &nbsp; attraper&gt;berner &nbsp;/ -10 \<br /> &nbsp; &nbsp; souris&gt;fille &nbsp;/ -22 \<br /> &nbsp; &nbsp; attraper&gt;prendre &nbsp;/ -25 \<br /> &nbsp; &nbsp; chat&gt;sexe de la femme &nbsp;/ -27 \<br /> &nbsp; &nbsp; souris&gt;papillon &nbsp;/ -27 \<br /> &nbsp; &nbsp; chat&gt;machine de si&egrave;ge &nbsp;/ -30 \<br /> &nbsp; &nbsp; chat&gt;artillerie &nbsp;/ -30 \<br /> &nbsp; &nbsp; chat&gt;marine &nbsp;/ -35 \<br /> &nbsp; &nbsp; souris&gt;informatique &nbsp;/ -41 \<br /> &nbsp; &nbsp; souris&gt;sourire &nbsp;/ -52 \<br /> &nbsp; &nbsp; souris&gt;poisson &nbsp;/ -53 \<br /> &nbsp; &nbsp; chat&gt;communication textuelle &nbsp;/ -75 \<br /> &nbsp; &nbsp; chat&gt;poisson &nbsp;/ -115 \<br /> end{center}<br /> end{multicols}</p> <p>Chaque raffinement est associ&eacute; &agrave; une valeur num&eacute;rique d&#39;activation. Plus la valeur est &eacute;lev&eacute;e plus l&#39;activation est forte, et &agrave; l&#39;inverse une activation n&eacute;gative (inhibition) correspond &agrave; un rejet du raffinement. Un poids de 0 correspond sans doute &agrave; un manque dans la base de connaissances, qui est cependant interpr&eacute;t&eacute; dans le contexte d&#39;un mode clos comme un rejet.</p> <p>Le principe de l&#39;algorithme sous-jacent (dit de propagation de signal) est de diffuser un signal de fa&ccedil;on r&eacute;p&eacute;t&eacute;e dans un sous-graphe du graphe JDM et d&#39;identifier les termes qui s&#39;activent fortement.&nbsp;<br /> En premier lieu, il s&#39;agit de construire un sous-graphe de JDM r&eacute;duit &agrave; la liste $L_T$ des termes de d&eacute;part auxquels on a adjoint tous les raffinements existants (liste $L_R$) pour chaque &eacute;l&eacute;ment de &nbsp;$L_T$. Ensuite, nous s&eacute;lectionnons toutes les relations de JDM d&eacute;finies entre toutes les paires de termes de $L = L_T cup L_R$. Appelons le sous-graphe obtenu $G_B$ (B comme Bell&eacute;rophon).</p> <p>Nous rappelons qu&#39;il est possible que certaines relations aient un poids n&eacute;gatif ce qui correspond &agrave; une impossibilit&eacute; (par exemple : &nbsp;chat&gt;palatine *r\_agent-1 attraper une souris). De part le mode de construction du r&eacute;seau JDM, si une relation impliquant un raffinement est pr&eacute;sente, la m&ecirc;me relation appliqu&eacute;e aux co-raffinements sera questionn&eacute;e (par exemple : fr&eacute;gate&gt;oiseau r\_has\_part ailes et fr&eacute;gate&gt;navire *r\_has\_part ailes) et est donc &eacute;galement pr&eacute;sente avec possiblement un poids de signe diff&eacute;rent.</p> <p>Dans $G_B$, nous associons &agrave; chaque n&oelig;ud une valeur d&#39;activation $v$. L&#39;algorithme est it&eacute;ratif et s&#39;arr&ecirc;te lors de la convergence des activations des n&oelig;uds de &nbsp;$L_R$ (o&ugrave; &agrave; d&eacute;faut quand un nombre d&#39;it&eacute;rations maximum est atteint, empiriquement 10 it&eacute;rations suffisent largement).<br /> &Agrave; chaque tour, chaque n&oelig;ud de &nbsp;$L_T$ voit son activation $v$ fix&eacute;e &agrave; une grandeur positive arbitraire (disons 1000 pour simplifier les id&eacute;es). Cette activation est ensuite communiqu&eacute;e aux n&oelig;uds voisins selon les r&egrave;gles suivantes :&nbsp;<br /> medbreak<br /> Soit $N$ le n&oelig;ud consid&eacute;r&eacute; et $N_1, N_2, ... N_k$ ses $k$ voisins reli&eacute;s par $p$ relations $N t p N_i$ ($t$ est le type de la relation, $p$ son poids, positif ou n&eacute;gatif).&nbsp;<br /> medbreak<br /> egin{itemize}<br /> &nbsp; &nbsp; item Si $v(N) &gt; 0$, l&#39;activation de $N$ est propag&eacute;e &agrave; ses voisins $N_i$, chacun au prorata $r(p)$ de $p$ (c&#39;est-&agrave;-dire $p / Sigma lvert p_i vert $) : $r(p) imes v(N)$. &nbsp;L&#39;activation d&#39;un n&oelig;ud $N_i$ est augment&eacute;e de cette valeur : $v(N_p) leftarrow v(N_p) + r(p) imes v(N)$. Cette valeur peut &ecirc;tre n&eacute;gative, et dans ce dernier cas, l&#39;activation diminue et peut elle-m&ecirc;me devenir n&eacute;gative - on parle alors d&#39;inhibition.<br /> &nbsp; &nbsp; item Si $v(N) leq 0$, le n&oelig;ud $N$ est dormant et n&#39;influence pas l&#39;activation de ses voisins.<br /> &nbsp; &nbsp; item A chaque tour les calcul d&#39;activation des n&oelig;uds se fait en parall&egrave;le.&nbsp;<br /> end{itemize}<br /> %egin{addmargin}[3em]{2em}% 1em left, 2em right</p> <p>% oindent Si $v(N) &gt; 0$, l&#39;activation de $N$ est propag&eacute;e &agrave; ses voisins $N_i$, chacun au prorata $r(p)$ de $p$ (c&#39;est-&agrave;-dire $p / Sigma lvert p_i vert $) : $r(p) imes v(N)$. &nbsp;L&#39;activation d&#39;un n&oelig;ud $N_i$ est augment&eacute;e de cette valeur : $v(N_p) leftarrow v(N_p) + r(p) imes v(N)$. Cette valeur peut &ecirc;tre n&eacute;gative, et dans ce dernier cas, l&#39;activation diminue et peut elle-m&ecirc;me devenir n&eacute;gative - on parle alors d&#39;inhibition.</p> <p>% oindent Si $v(N) leq 0$, le n&oelig;ud $N$ est dormant et n&#39;influence pas l&#39;activation de ses voisins.</p> <p>% oindent A chaque tour les calcul d&#39;activation des n&oelig;uds se fait en parall&egrave;le.&nbsp;<br /> %end{addmargin}<br /> medbreak<br /> L&#39;algorithme est prouv&eacute; non-convergent dans le cas g&eacute;n&eacute;ral, mais en pratique il converge quasi-syst&eacute;matiquement en environ 4 tours en moyenne. Les valeurs d&#39;activation de chaque n&oelig;ud &agrave; l&#39;issue du dernier tour constitue la r&eacute;ponse calcul&eacute;e. En g&eacute;n&eacute;ral, on s&#39;int&eacute;resse &agrave; l&#39;activation des n&oelig;uds correspondant aux raffinements.<br /> L&#39;utilisation de cet algorithme est utile pour effectuer une d&eacute;sambigu&iuml;sation lexicale holistique simple des termes d&#39;un texte, mais peut &eacute;galement s&#39;av&eacute;rer int&eacute;ressante pour d&eacute;tecter des informations (relations) manquantes dans le r&eacute;seau.</p> <p>%%<br /> %% IDEFIX<br /> subsubsection*{hspace{parindent}{small extit{ID&Eacute;FIX}} : extraction, association et abduction de termes}</p> <p>{small extit{ID&Eacute;FIX}} est une sur-couche du r&eacute;seau extit{JDM} fond&eacute;e sur des r&eacute;seaux de neurones permettant de s&eacute;lectionner des concepts pertinents pour un texte fourni en entr&eacute;e. Cette s&eacute;lection se fait de mani&egrave;re abductive et locale au commentaire, par imitation des exemples d&eacute;j&agrave; appris des interactions pr&eacute;c&eacute;dentes avec l&#39;utilisateur (validation, invalidation et proposition de termes-cl&eacute;s).&nbsp;</p> <p>Le service {small extit{ID&Eacute;FIX}} de la plate-forme JDM permet de calculer des termes pertinents &agrave; partir d&#39;un texte. Par exemple, &agrave; partir du texte qui suit :<br /> medbreak<br /> og extit{Ensuite, les monnaies locales permettent &agrave; une communaut&eacute; d&#39;utiliser pleinement ses ressources productives existantes, tout sp&eacute;cialement la force de travail inemploy&eacute;e, ce qui a un effet catalytique sur le reste de l&#39;&eacute;conomie locale. Elles sont fond&eacute;es sur le postulat que la communaut&eacute; n&#39;utilise pas pleinement ses capacit&eacute;s de production, par manque de pouvoir d&#39;achat local. La monnaie alternative est utilis&eacute;e pour augmenter la demande, d&#39;o&ugrave; une plus grande exploitation des ressources productives.} (Wikip&eacute;dia Monnaie locale) fg &nbsp;<br /> medbreak<br /> oindent Nous obtenons les termes suivants :</p> <p>egin{addmargin}[3em]{2em}% 1em left, 2em right<br /> extit{monnaies locales * ressources productives * capacit&eacute;s de production &bull; &eacute;conomie * exploitation des ressources productives * force de travail inemploy&eacute;e &bull; monnaie citoyenne * &nbsp;&eacute;conomie locale * pouvoir d&#39;achat local * monnaie compl&eacute;mentaire}<br /> end{addmargin}<br /> medbreak<br /> Pour aboutir &agrave; son r&eacute;sultat, {small extit{ID&Eacute;FIX}} calcule et combine trois ensembles de termes pond&eacute;r&eacute;s.<br /> medbreak<br /> Le premier ensemble, les extit{termes extraits}, est l&#39;extraction directe des termes du texte avec lemmatisation et identification des termes compos&eacute;s.<br /> Dans l&#39;exemple pr&eacute;c&eacute;dent, nous obtenons (sans les pond&eacute;rations) :&nbsp;<br /> medbreak<br /> egin{addmargin}[3em]{2em}% 1em left, 2em right<br /> {small extit{Ensuite * ensuite * monnaies locales * monnaie locale * permettre de * permettre &agrave; * communaut&eacute; * pleinement * ressources existantes * productif * existant * sp&eacute;cialement * travail de la force * force de travail inemploy&eacute;e * inemploy&eacute; * effet catalytique * l&#39;&eacute;conomie locale * reste * &ecirc;tre fond&eacute; sur * fond&eacute;es * postulat * ne pas utiliser * ses capacit&eacute;s * capacit&eacute; de production * capacit&eacute;s de production * par manque * manque de pouvoir d&#39;achat * pouvoir d&#39;achat local * achat local * monnaie alternative * utilis&eacute; * pour augmenter * &ecirc;tre utilis&eacute;e * demande * d&#39;exploitation &nbsp;* exploitation des ressources productives * &eacute;conomie locale * monnaie * permettre * utiliser * ressources * ressources productives * travail * effet * production * augmenter * exploitation des ressources * &eacute;conomie}}<br /> end{addmargin}<br /> medbreak</p> <p>Ce premier ensemble de termes extraits est l&#39;objet d&#39;une d&eacute;sambigu&iuml;sation lexicale via le service Bell&eacute;rophon. Les sens s&eacute;lectionn&eacute;s pour les termes polys&eacute;miques sont ajout&eacute;s &agrave; cet ensemble.<br /> medbreak</p> <p>Le second ensemble, les extit{termes associ&eacute;s} est l&#39;ensemble de toutes les associations (relation exttt{r\_associated} dans JDM) li&eacute;es positivement aux extit{termes extraits}.<br /> Dans l&#39;exemple pr&eacute;c&egrave;dent, nous obtenons :&nbsp;<br /> medbreak<br /> egin{addmargin}[3em]{2em}% 1em left, 2em right<br /> {small extit{monnaie compl&eacute;mentaire | 10 * &eacute;conomie locale | 5.775 * &eacute;conomie | 4.687 * monnaie citoyenne | 3.164 * &eacute;conomie&gt;activit&eacute; &eacute;conomique | 1.281 * stimulation de l&#39;&eacute;conomie | 0.765 * monnaie locale | 0.52 * production | 0.482 * exploitation des ressources pr&eacute;sentes sur la Lune | 0.455 * travail &agrave; mi-temps | 0.451 * argent | 0.237 * &nbsp;agriculture locale | 0.17 * pouvoir d&#39;achat en baisse | 0.17 * local&gt;propre &agrave; un lieu | 0.149 * monnaie | 0.146 * monnaie virtuelle | 0.144 * &ecirc;tre sur l&#39;os | 0.14 * &eacute;conomie clandestine | 0.128 * mati&egrave;res premi&egrave;res | 0.126 * quantit&eacute; de biens | 0.09 * consommation&gt;&eacute;conomie | 0.09 * augmenter les b&eacute;n&eacute;fices | 0.085 * manque d&#39;emploi | 0.085 * possibilit&eacute;s offertes par qqch | 0.079 * produits d&#39;un pays | 0.079 * possibilit&eacute;s d&#39;actions de quelqu&#39;un | 0.079 * produits r&eacute;gionaux | 0.057 }}<br /> end{addmargin}</p> <p>On remarquera que certains termes ont un point tr&egrave;s faible, et qu&#39;il convient de seuiller la r&eacute;ponse finale.<br /> medbreak</p> <p>Le troisi&egrave;me ensemble, les extit{termes activ&eacute;s}, correspond aux activations de sortie dans un r&eacute;seau neuronal construit dans JDM avec comme points d&#39;entr&eacute;e les extit{termes extraits}. Il s&#39;agit d&#39;un r&eacute;seau neuronal discret (RND) qui associe &agrave; un ensemble de termes d&#39;entr&eacute;e un ensemble de termes de sortie (contrairement au r&eacute;seau JDM qui associent des paires de termes). L&#39;&eacute;l&eacute;ment de base est un &quot;neurone&quot; qui est un n&oelig;ud faisant la &quot;glue&quot; entre les deux ensembles (voir figure ef{figure:RNidefix}). Ce RDN est qualifi&eacute; de discret car aucun plongement lexical n&#39;est pr&eacute;sent.</p> <p>medbreak<br /> egin{figure}[!ht]<br /> egin{center}<br /> includegraphics[width=0.9 extwidth]{RNIdefix.jpg}<br /> caption{Illustration du r&eacute;seau neuronal discret (RDN) de JDM utilis&eacute; par Id&eacute;fix. Chaque neurone connecte un ensemble de termes + neurones d&#39;entr&eacute;e &agrave; un ensemble de termes + neurones de sortie. }<br /> label{figure:RNidefix}<br /> end{center}<br /> end{figure}&nbsp;<br /> Le fonctionnement du RDN est similaire au m&eacute;canisme expliqu&eacute; ci-dessus pour Bell&eacute;rophon a quelque diff&eacute;rences pr&egrave;s :</p> <p>egin{itemize}<br /> &nbsp; item Les neurones ne s&#39;activent que de fa&ccedil;on probabiliste en fonction de leur niveau d&#39;activation et du nombre d&#39;entr&eacute;es activ&eacute;es (au moins la moiti&eacute;) ;<br /> &nbsp; item Les n&oelig;uds de sorties activ&eacute;s constituent la r&eacute;ponse calcul&eacute;e ;<br /> &nbsp; item Tout n&oelig;ud de sortie peut &ecirc;tre un n&oelig;ud d&#39;entr&eacute;e d&#39;un neurone ;<br /> &nbsp; item Le calcul se r&eacute;alise en une seule passe (aucune it&eacute;ration) ;<br /> &nbsp; item Seules les parties du RDN connect&eacute;es aux entr&eacute;es activ&eacute;es sont concern&eacute;es par le calcul, qui est donc strictement localiste malgr&eacute; la taille cons&eacute;quente du RDN.<br /> end{itemize}<br /> medbreak</p> <p>Au 1er Janvier 2024, le RND de JDM contient plus de $650 000$ neurones (qui sont des n&oelig;uds particuliers du graphe de JDM) et environ $70$ millions de connexions (qui sont des relations particuli&egrave;res du graphe de JDM). L&#39;apprentissage est r&eacute;alis&eacute; de fa&ccedil;on constante &agrave; partir des articles de Wikip&eacute;dia. Pour chaque paragraphe d&#39;un article, les termes extraits (au sens de la proc&eacute;dure &eacute;voqu&eacute;e ci-dessus) sont les termes d&#39;entr&eacute;e. Les termes de sortie sont (la ou) les vedettes de l&#39;article Wikip&eacute;dia ainsi que les termes qui sont des liens hypertextuels dans le paragraphe concern&eacute;.<br /> medbreak<br /> oindent Dans l&#39;exemple pr&eacute;c&egrave;dent, nous obtenons apr&egrave;s seuillage :&nbsp;<br /> medbreak<br /> egin{addmargin}[3em]{2em}% 1em left, 2em right<br /> {small extit{&nbsp;<br /> ressources productives<br /> &bull; capacit&eacute;s de production<br /> &bull; &eacute;conomie<br /> &bull; exploitation des ressources productives<br /> &bull; inemploy&eacute;e<br /> &bull; monnaie citoyenne<br /> &bull; pouvoir d&#39;achat local<br /> &bull; &eacute;conomie locale<br /> &bull; force de travail<br /> &bull; monnaies locales<br /> &bull; force de travail inemploy&eacute;e&nbsp;<br /> }}<br /> end{addmargin}<br /> medbreak</p> <p>Le RND permet de calculer des termes pertinents par abduction (imitation par l&#39;exemple) non-lin&eacute;aire &agrave; partir de ce qui a d&eacute;j&agrave; &eacute;t&eacute; appris (c&#39;est-&agrave;-dire des exemples d&eacute;j&agrave; connus qui sont dans le RND). Les extit{termes associ&eacute;s}, eux, sont ceux qui sont s&eacute;mantiquement reli&eacute;s dans JDM avec un effet d&#39;&eacute;mergence linaire.<br /> medbreak</p> <p>La combinaisons des trois ensembles de termes (extraits, associ&eacute;s, activ&eacute;s), une fois les poids norm&eacute;s, se fait de mani&egrave;re lin&eacute;aire dans la proportion 1/5, 2/5 et 3/5. Il est tout &agrave; fait possible que la liste des termes activ&eacute;s soit vide, si aucun neurone n&#39;a &eacute;t&eacute; pu se d&eacute;clencher. Cela arrive quand des sujets nouveaux sont abord&eacute;s, et la liste des termes associ&eacute;s fait donc office de filet de s&eacute;curit&eacute; (mais parfois avec des risques de confusion surtout concernant des &eacute;l&eacute;ments textuels &agrave; la s&eacute;mantique implicite).<br /> medbreak</p> <p>Ainsi {small extit{ID&Eacute;FIX}} est le service sollicit&eacute; pour calculer les termes et concepts suppos&eacute;ment pertinents d&#39;une contribution &agrave; un d&eacute;bat faite sur la plate-forme AREN. C&#39;est ce r&eacute;sultat qui va &ecirc;tre l&#39;objet d&#39;un traitement d&#39;enrichissement.</p> <p>%%<br /> %%&nbsp;<br /> %% Enrichissement s&eacute;mantique<br /> %%<br /> %%<br /> subsection{Enrichissement s&eacute;mantique}label{AugmentationS&eacute;mantique}<br /> Afin d&#39;assurer une repr&eacute;sentativit&eacute; des propos des utilisateurs, nous proc&eacute;dons &agrave; l&#39;enrichissement des ensembles de mots-cl&eacute;s produits &agrave; l&#39;&eacute;tape pr&eacute;c&eacute;dente (c.f. Algorithme~ ef{alg:augmentation}). Nous cherchons, en premier lieu, &agrave; assurer une couverture s&eacute;mantique suffisante en nous occupant des &eacute;ventuels ph&eacute;nom&egrave;nes d&#39;ambigu&iuml;t&eacute; lexicale footnote{Ambigu&iuml;t&eacute; trait&eacute;e via le service extit{Bell&eacute;rophon}} et engendr&eacute;es par la polys&eacute;mie des termes-cl&eacute;s (c.f. Figure~ ef{fig:enrichissement}).<br /> medbreak</p> <p><br /> egin{figure}[!h]<br /> centering<br /> egin{tabular}{p{13cm}}<br /> hlinehline<br /> &nbsp; extbf{Commentaire :} &nbsp; extit{la monnaie locale est un outil financier.}\<br /> &nbsp;hline<br /> &nbsp; extbf{Indexation : }&nbsp;<br /> {small outil conceptuel extbf{;} &ecirc;tre utile extbf{;} outil&gt;moyen d&#39;action extbf{;} MLC extbf{;} &eacute;conomie locale extbf{;} moyen d&#39;action extbf{;} monnaie locale extbf{;} crise commerciale extbf{;} monnaie locale compl&eacute;mentaire et citoyenne extbf{;} outil &nbsp; extbf{;} financier extbf{;} Sol-violette extbf{;} &eacute;conomie extbf{;} monnaie locale compl&eacute;mentaire extbf{;} monnaie extbf{;} outil financier extbf{;} local}\<br /> &nbsp; hline<br /> &nbsp; extbf{D&eacute;sambigu&iuml;sation de l&#39;indexation : }<br /> &nbsp; &nbsp;{small outil&gt;moyen d&#39;action extbf{;} monnaie&gt;argent extbf{;} &eacute;conomie&gt;activit&eacute; &eacute;conomique extbf{;} financier&gt;finance extbf{;} MLC&gt;monnaie locale compl&eacute;mentaire extbf{;} monnaie&gt;unit&eacute; mon&eacute;taire extbf{;} local&gt;propre &agrave; un lieu }\<br /> &nbsp; hline<br /> % &nbsp; extbf{Raffinement s&eacute;mantique du mot-cl&eacute; &quot;financier&quot;} \<br /> % &nbsp; financier (homme d&#39;affaires) ; financier (finance) ; financier (g&acirc;teau) ; &nbsp;financier (th&eacute;&acirc;tre)\<br /> % hline<br /> &nbsp; extbf{Augmentation s&eacute;mantique - synonymes :}&nbsp;<br /> &nbsp; {small r&eacute;gional (depuis local&gt;propre &agrave; un lieu) extbf{;} sous&gt;argent (depuis monnaie&gt;argent)}\<br /> &nbsp;hline<br /> end{tabular}<br /> caption{label{fig:enrichissement} Exemple de d&eacute;sambigu&iuml;sation et d&#39;augmentation s&eacute;mantique d&#39;indexation d&#39;un propos d&#39;un d&eacute;bat sur les monnaies locales. L&#39;ajout du synonyme extit{r&eacute;gional} n&#39;est autoris&eacute; que parce qu&#39;il est pr&eacute;sent ailleurs dans le d&eacute;bat (dans le cas de l&#39;augmentation avec restriction).}<br /> %https://portail-aren.lirmm.fr/aren2023/debates/6<br /> end{figure}<br /> medbreak<br /> La d&eacute;sambigu&iuml;sation lexicale revient &agrave; extit{s&eacute;parer les termes semblables en apparence, mais dont les sens sont diff&eacute;rents}, en identifiant les raffinements s&eacute;mantiques ad&eacute;quats dans le r&eacute;seau extit{JDM}. Les raffinements s&eacute;mantiques d&#39;un terme sont tous ses extit{homographes}, pour lesquels on identifie dans le r&eacute;seau un ensemble de relations s&eacute;mantiques divergeant de celui du terme &agrave; og extit{raffiner} fg. L&#39;identification du extit{bon} raffinement s&eacute;mantique dans JeuxDeMots a pour objectif de consid&eacute;rer, dans la suite de l&#39;algorithme, le sous-graphe incluant l&#39;homonyme, au sens sp&eacute;cifique dans lequel il est utilis&eacute; dans le texte.&nbsp;</p> <p>L&#39;enrichissement des termes de description par leurs termes synonymes ou hyperonymes pertinents, permet, &agrave; l&#39;inverse de la d&eacute;sambigu&iuml;sation, de extit{regrouper les termes diff&eacute;rents en apparence, dont les sens sont (quasi-)semblables}.&nbsp;</p> <p>L&#39;int&eacute;r&ecirc;t de cet enrichissement est d&#39;identifier, ind&eacute;pendamment des diverses variantes lexicales, les occurrences d&#39;un sens donn&eacute;, ce afin d&#39;&eacute;viter un &eacute;parpillement des &eacute;l&eacute;ments de sens (relations s&eacute;mantiques) &nbsp;pris en compte par l&#39;algorithme, pour un terme donn&eacute;.</p> <p>Dans la suite de la pr&eacute;sentation, nous consid&eacute;rerons deux mani&egrave;res distinctes d&#39;effectuer cette &eacute;tape d&#39;enrichissement. L&#39;ajout d&#39;un synonyme/hyperonyme dans les termes-cl&eacute;s d&#39;un propos peut &ecirc;tre r&eacute;alis&eacute; sans ou avec une restriction aux termes du d&eacute;bat. Se restreindre aux termes-cl&eacute;s du d&eacute;bat signifie qu&#39;un terme synonyme ou hyperonyme n&#39;est ajout&eacute; &agrave; la liste des termes-cl&eacute;s (r&eacute;sultant de l&#39;indexation) que s&#39;il indexe un autre propos (uniquement, s&#39;il existe d&eacute;j&agrave; comme terme-cl&eacute; d&#39;un autre propos du d&eacute;bat), ceci afin d&#39;&eacute;viter une d&eacute;rive li&eacute;e &agrave; des cas de synonymie foisonnante.<br /> medbreak&nbsp;<br /> egin{algorithm}[h]<br /> caption{Augmentation des mots-cl&eacute;s}label{alg:augmentation}<br /> egin{algorithmic}<br /> Require $mathcal E, ext{JDM}, S|H$ vspace{-5mm}egin{FlushRight}Comment{listes de termes d&#39;indexation des arguments,\ base de connaissances, synonymes | hyperonymes}end{FlushRight}<br /> Ensure $mathcal E&#39;$ Comment{listes d&#39;indexation des arguments apr&egrave;s l&#39;enrichissement s&eacute;mantique}<br /> State $mathcal E&#39; gets emptyset$<br /> For {$I in mathcal E$}<br /> State $I&#39; gets I$<br /> State $mathcal R_{I} = Bellerophon(I, ext{JDM})$ vspace{-5mm}egin{FlushRight}Comment{calculer le raffinement lexical de chaque liste de\ termes $I$ avec le service extit{Bell&eacute;rophon}}end{FlushRight}<br /> For {$i in I$}<br /> If{$is\_polysemy(i)$} vspace{-5mm}egin{FlushRight}Comment{si le terme $i$ est polys&eacute;mique l&#39;augmentation\est faite &agrave; partir de sa d&eacute;sambigu&iuml;sation lexicale}end{FlushRight}<br /> If{$i in R_{I}$}<br /> State $desamb_{i} = get\_desamb(i,mathcal R_{I})$ vspace{-5mm}egin{FlushRight}Comment{get\_desamb retourne les \raffinements de $i$ &agrave; partir de $R_{I}$}end{FlushRight}<br /> State $aug_{i} = augmente(desamb_{i}, ext{JDM},S|H)$ vspace{-5mm}egin{FlushRight}Comment{augmente retourne les \ synonymes ou hyperonymes \d&#39;un terme donn&eacute;}end{FlushRight}<br /> EndIf<br /> Else<br /> State $aug_{i} = augmente(i, ext{JDM},S|H)$&nbsp;<br /> EndIf<br /> State $I&#39; gets I&#39; cup aug_{i}$<br /> EndFor<br /> State $mathcal E&#39; gets mathcal E&#39; cup I&#39;$<br /> EndFor<br /> State Return $mathcal E&#39;$<br /> end{algorithmic}<br /> end{algorithm}</p> <p>% egin{algorithm}<br /> % caption{Raffinement lexical}label{alg:raffinement}<br /> % egin{algorithmic}<br /> % Require $mathcal I,mathcal JDM$ Comment{liste de termes d&#39;indexation $mathcal I$ et graphe orient&eacute;e $mathcal JDM$}<br /> % Ensure $mathcal R$ Comment{ensemble de raffinements de $mathcal I$}<br /> % For {$i in mathcal I$}<br /> % EndFor<br /> % State Return $mathcal R$<br /> % end{algorithmic}<br /> % end{algorithm}</p> <p>subsection{Extraction de connaissances}label{ExtractionConnaissances}<br /> L&#39;extraction de connaissances &agrave; partir de l&#39;indexation des commentaires utilise l&#39;AFC, un cadre math&eacute;matique bas&eacute; sur la th&eacute;orie des treillis permettant la repr&eacute;sentation de l&#39;information contenue dans des donn&eacute;es sous des formes alg&eacute;briques ou logiques citep{Ganter:2012}.&nbsp;<br /> subsubsection{Contexte formel et fermeture de Galois}<br /> L&#39;AFC part de donn&eacute;es sous la forme d&#39;un extit{contexte formel}; un triplet $(mathcal O,mathcal A,mathcal R)$ o&ugrave; $mathcal Rsubseteq mathcal O imes mathcal A$ est une relation binaire entre des emph{objets} $O$ et les emph{attributs} $A$ qui les d&eacute;crivent. Cette relation peut &ecirc;tre repr&eacute;sent&eacute;e sous la forme d&#39;un tableau de croix (c.f. Figure~ ef{fig:context}).<br /> medbreak<br /> Dans AREN, les objets sont les commentaires du d&eacute;bat et les attributs sont les mots-cl&eacute;s (ou les termes) propos&eacute;s par les d&eacute;battants ou ajout&eacute;s lors de la phase d&#39;indexation. \Un terme est en relation avec un commentaire s&#39;il l&#39;indexe.&nbsp;<br /> Par exemple, dans l&#39;exemple de la Figure~ ef{fig:context}, $(c_4, monnaie&gt;argent)in mathcal R$ signifie que l&#39;objet extit{$c_4$ = la loi donne une existence l&eacute;gale aux monnaies locales} est index&eacute; par le terme $monnaie&gt;argent$.</p> <p>egin{figure}[!h]<br /> centering<br /> esizebox{ extwidth}{!}{<br /> egin{tabular}{cccccc}<br /> &nbsp;&amp; small$organisation$ &nbsp;&amp; &nbsp; small$monnaie&gt;argent$ &nbsp;&amp; &nbsp; small$cours~lacute egal$ &amp; &nbsp; small$monnaie~complacute ementaire$ &amp; &nbsp;small$monnaie~locale$ &nbsp;\<br /> &nbsp;hline<br /> $c_1$ &amp; $ imes$ &amp; &amp; $ imes$ &amp; &nbsp;&amp; \<br /> $c_2$ &amp; &amp; &nbsp;&amp; $ imes$ &amp; $ imes$ &amp; $ imes$ &nbsp;\<br /> $c_3$ &amp; &amp; $ imes$ &amp; &amp; &amp; $ imes$ &nbsp;\<br /> $c_4$ &amp; &amp; $ imes$ &amp; $ imes$ &amp; $ imes$ &amp; $ imes$ \<br /> end{tabular}}<br /> caption{label{fig:context}Exemple de contexte formel avec une relation binaire entre quatre commentaires ($c_i$) : $c_1$ = &laquo; la monnaie est une mani&egrave;re de faire et d&#39;organiser la soci&eacute;t&eacute; &raquo; ; $c_2$ = &laquo; L&#39;acceptation dans le cadre de la loi rend la monnaie locale l&eacute;gale &raquo; ; $c_3$ = &laquo; les monnaies locales nous font nous questionner sur un outil que nous banalisons la monnaie &raquo; ; $c_4$ = &laquo; la loi donne une existence l&eacute;gale aux monnaies locales &raquo; et cinq termes ($t_j$) : &laquo; organisation &raquo; ; &laquo; monnaie&gt;argent &raquo; ; &laquo; cours l&eacute;gal &raquo; ; &laquo; monnaie compl&eacute;mentaire &raquo; ; &laquo; monnaie locale &raquo;.}<br /> end{figure}<br /> medbreak<br /> Un contexte formel donne lieu &agrave; deux emph{op&eacute;rateurs de d&eacute;rivation}, tous deux not&eacute;s $cdot &#39;$ et d&eacute;finis tels que<br /> $$cdot&#39;: 2^{mathcal A}mapsto 2^{mathcal O}$$<br /> $$A&#39; = {oin mathcal O | forall ain A, (o,a)in mathcal R}$$<br /> $$cdot&#39;: 2^{mathcal O}mapsto 2^{mathcal A}$$<br /> $$O&#39; = {ain mathcal A | forall oin O, (o,a)in mathcal R}$$<br /> Les compositions $cdot &#39;&#39;$ de ces op&eacute;rateurs forment des op&eacute;rateurs de fermeture.&nbsp;<br /> Par exemple, dans la Figure~ ef{fig:context}, la fermeture de $monnaie&gt;argent$ est ${monnaie&gt;argent, monnaie locale}$.</p> <p>subsubsection{G&eacute;n&eacute;ration des irr&eacute;ductibles}<br /> Un contexte formel est dit emph{clarifi&eacute;} s&#39;il n&#39;a pas deux objets ayant exactement la m&ecirc;me description ou deux attributs d&eacute;crivant exactement les m&ecirc;mes objets. Dans un contexte clarifi&eacute;, un attribut $a$ est dit emph{irr&eacute;ductible} si l&#39;ensemble ${a}&#39;$ des objets qu&#39;il d&eacute;crit n&#39;est pas &eacute;gal &agrave; l&#39;intersection des ensembles d&#39;objets d&eacute;crits par d&#39;autres attributs citep{Liquiere:2021}, c&#39;est-&agrave;-dire qu&#39;il n&#39;existe pas d&#39;ensemble d&#39;attributs $X$ tel que ${a}&#39; = igcap_{xin X} = {x}&#39;$ (c.f. Algorithme~ ef{alg:irreductibles}).</p> <p>Dans l&#39;exemple de la Figure~ ef{fig:context}, seul l&#39;attribut $monnaie complacute ementaire$ n&#39;est pas irr&eacute;ductible puisque ${monnaie complacute ementaire}&#39; = {cours lacute egal}&#39;cap {monnaie locale}&#39;$. Le reste des termes, &agrave; savoir $organisation$, $monnaie&gt;argent$, $cours lacute egal$ et $monnaie locale$, sont tous des irr&eacute;ductibles.</p> <p><br /> egin{algorithm}<br /> caption{Calcul des irr&eacute;ductibles}label{alg:irreductibles}<br /> egin{algorithmic}<br /> Require $a,(mathcal O,mathcal A,mathcal R)$ Comment{attribut $a$ et contexte formel}<br /> Ensure $mathcal O_{t}$<br /> State $F(a) gets fermeture(a,(mathcal O,mathcal A,mathcal R))$ &nbsp;Comment{calculer $mathcal A(mathcal O(a))$}<br /> State $mathcal O_{t} gets mathcal O - mathcal O(a)$<br /> For {$a_{i} in F(a)$}{<br /> If {$mathcal O_{t} e emptyset$}State Return $mathcal O_{t}$<br /> EndIf<br /> If {$|mathcal O(a_{i})| e |mathcal O(a)|$}State Return $mathcal O_{t} gets mathcal O_{t} cap mathcal O(a_{i})$<br /> Else State $fusion(a_{i})$<br /> EndIf<br /> }EndFor<br /> State Return $mathcal O_{t}$<br /> end{algorithmic}<br /> end{algorithm}</p> <p>subsubsection{Extraction des implications}<br /> Nous cherchons &agrave; extraire des r&eacute;gularit&eacute;s dans la cooccurence des mots-cl&eacute;s dans l&#39;indexation des commentaires. L&#39;AFC offre diff&eacute;rentes possibilit&eacute;s de repr&eacute;sentation de ces r&eacute;gularit&eacute;s : implications, r&egrave;gles d&#39;association, treillis de concepts ou relations causales citep{Bazin:2022}. Une implication est une r&egrave;gle constitu&eacute;e d&#39;une paire d&#39;ensembles d&#39;attributs $A$ et $B$, habituellement not&eacute;e $A ightarrow B$.&nbsp;<br /> medbreak<br /> Une implication est dite emph{valide} dans un contexte formel donn&eacute; si et seulement si tous les objets d&eacute;crits par les attributs de $A$ sont aussi d&eacute;crits par les attributs de $B$, c&#39;est-&agrave;-dire $Bsubseteq A&#39;&#39;$ (c.f. Algorithme~ ef{alg:precis}).</p> <p>Ainsi, dans l&#39;exemple de la Figure~ ef{fig:context}, les deux implications ${cours lacute egal, monnaie locale} ightarrow {monnaie complacute ementaire}$ et ${organisation} ightarrow {cours lacute egal}$ sont valides tandis que ${cours lacute egal} ightarrow {organisation}$ ne l&#39;est pas. Afin de r&eacute;duire le nombre de r&egrave;gles &agrave; pr&eacute;senter aux d&eacute;battants, notre attention se focalise sp&eacute;cifiquement sur les &nbsp;implications de la forme ${a} ightarrow B$ telles que $a$ est un terme irr&eacute;ductible.&nbsp;</p> <p>egin{algorithm}<br /> caption{G&eacute;n&eacute;ration des implications}label{alg:precis}<br /> egin{algorithmic}<br /> Require $I,(mathcal O,mathcal A,mathcal R)$ Comment{ensemble d&#39;irr&eacute;ductibles $I$ et contexte formel}<br /> Ensure $mathcal P$ Comment{ensemble d&#39;implications $mathcal P$}<br /> State $mathcal P gets emptyset$<br /> For{$i in I$}<br /> State $F(i) gets fermeture(i,(mathcal O,mathcal A,mathcal R))$ &nbsp;Comment{calculer $mathcal A(mathcal O(i))$}&nbsp;<br /> State $p gets i Rightarrow F(i)$<br /> State $mathcal P gets mathcal P cup p$<br /> EndFor<br /> State Return $mathcal P$<br /> end{algorithmic}<br /> end{algorithm}</p> <p>subsection{Enrichissement de la base de connaissance}label{majJDM}<br /> Les implications obtenues avec l&#39;AFC sont utilis&eacute;es pour mettre &agrave; jour les relations dans la base de connaissances exploit&eacute;e lors de ce processus. &nbsp;Donc, depuis une implication de la forme ${a} ightarrow {b,c, d, e, ...}$ nous ajoutons dans la base de connaissances des relations $a ightarrow extbf{x} avec extbf{x} in {b,c, d, e, ...}$.&nbsp;<br /> medbreak<br /> Dans l&#39;exemple de la Figure~ ef{fig:context}, la mise &agrave; jour de la base de connaissances extit{JDM} se fait par l&#39;ajout de l&#39;association des termes extit{&laquo; cours l&eacute;gal &raquo;} et extit{&laquo; organisation &raquo;} et celle de extit{&laquo; monnaie locale &raquo;} et extit{&laquo; monnaie&gt;argent &raquo;}. Ces modifications am&eacute;liorent globalement la composante associative des calculs ult&eacute;rieurs des indexations des propos.</p> <p>section{Mesures d&#39;&eacute;valuation des r&egrave;gles}label{MesuresEal}<br /> %Il est vrai que les mesures de fiabilit&eacute; sont fondamentales pour l&#39;extraction de r&egrave;gles satisfaisantes &nbsp;(par leur capacit&eacute; &agrave; bien couvrir le contexte d&#39;extraction initial).&nbsp;<br /> %Cependant, se concentrer uniquement sur des r&egrave;gles ayant une confiance et un support &eacute;lev&eacute;s tout en n&eacute;gligeant d&#39;autres aspects cruciaux pouvant repr&eacute;senter le contexte, rend difficile l&#39;utilisation de ces r&egrave;gles par d&#39;autres syst&egrave;mes visant &agrave; produire des r&eacute;sultats satisfaisants.</p> <p>Afin d&#39;&eacute;tudier l&#39;impact de l&#39;augmentation s&eacute;mantique sur la qualit&eacute; des r&egrave;gles, nous avons utilis&eacute; diverses m&eacute;triques, notamment le support, la nouveaut&eacute; et la surprise (fond&eacute;e sur la co-occurrence ou le voisinage des termes).&nbsp;</p> <p>subsection{Support}<br /> Le support peut-&ecirc;tre per&ccedil;u comme un indicateur de &laquo; confiance statistique &raquo; d&#39;une r&egrave;gle. Le support d&#39;un ensemble d&#39;attributs ou termes $T$ est le nombre d&#39;objets (ou de commentaires) d&eacute;crits par $T$ divis&eacute; par le nombre total d&#39;objets. Il peut &ecirc;tre d&eacute;fini par l&#39;Equation~ ef{SuppEq}.</p> <p>egin{equation}label{SuppEq}<br /> Supp(r) = p(T_r^p ~~ T_r^c) / |C|<br /> end{equation}</p> <p> oindent o&ugrave; $T_r^p$ et $T_r^c$ sont respectivement les termes de la pr&eacute;misse et de la conclusion de la r&egrave;gle r et $C$ sont les commentaires.</p> <p>subsection{Nouveaut&eacute;}<br /> La nouveaut&eacute; est une m&eacute;trique qui a &eacute;t&eacute; utilis&eacute;e dans les domaines de d&eacute;couverte de sous-groupes et de d&eacute;couverte de clauses citep{Wrobel:1997}. Une r&egrave;gle est consid&eacute;r&eacute;e nouvelle si sa pr&eacute;misse et sa conclusion ne sont pas statistiquement ind&eacute;pendantes citep{Lavrac:1999}.&nbsp;<br /> medbreak<br /> oindent La nouveaut&eacute; d&#39;une r&egrave;gle est d&eacute;finie par l&#39;Equation~ ef{NovEq}.<br /> egin{equation}label{NovEq}<br /> Nov(r) = p(T_r^p ~~ T_r^c) - p(T_r^p)~~p(T_r^c)<br /> end{equation}</p> <p> oindent o&ugrave; $r$ est une r&egrave;gle (implication), $T_r^p$ et $T_r^c$ sont respectivement les termes de la pr&eacute;misse et de la conclusion de la r&egrave;gle r.</p> <p>%Un score positif indique que le support observ&eacute; de la r&egrave;gle r est plus &eacute;lev&eacute; que pr&eacute;vu par hasard. Cela sugg&egrave;re que l&#39;association entre $T_r^p$ et $T_r^c$ est plus forte que ce &agrave; quoi on pourrait s&#39;attendre sur la base du hasard. Cependant, un score n&eacute;gatif...</p> <p>%limite: Notons que cette mesure est sym&eacute;trique, ce qui signifie que $T_r^p ightarrow T_r^c$ et $T_r^c ightarrow T_r^p$ porteront toujours la m&ecirc;me nouveaut&eacute;, m&ecirc;me si l&#39;un d&#39;eux peut avoir plus de contre-instances (satisfaisant la conclusion mais falsifiant la pr&eacute;misse) que l&#39;autre.</p> <p>subsection{Surprise}</p> <p>Bien que la pertinence peut &ecirc;tre facilement &eacute;valu&eacute;e &agrave; l&#39;aide du support, la mesure de la surprise (ou de l&#39;inattendu) des r&egrave;gles est une t&acirc;che complexe qui n&eacute;cessite souvent des &eacute;tudes co&ucirc;teuses &agrave; mener, impliquant des utilisateurs (ou des ressources externes, dans notre cas). Une r&egrave;gle nouvelle peut &ecirc;tre r&eacute;trospectivement surprenante ou non, dans le sens o&ugrave; la connaissance disponible ne permet pas de l&#39;expliquer rapidement/facilement. &nbsp;</p> <p>Dans ce travail, nous ajustons deux d&eacute;finitions de la mesure de surprise utilis&eacute;es dans le domaine de recommandation citep{Kaminskas:2014}, l&#39;une bas&eacute;e sur le degr&eacute; d&#39;association s&eacute;mantique entre les termes indexant les propos du d&eacute;bat et l&#39;autre bas&eacute;e sur les termes associ&eacute;s aux termes d&#39;indexation. Les deux mesures produisent un score qui indique le niveau de surprise que le terme cible a apport&eacute; &agrave; la r&egrave;gle.</p> <p>subsubsection{Surprise bas&eacute;e sur la co-occurrence des termes}</p> <p>L&#39;information mutuelle sp&eacute;cifique (Point-wise Mutual Information not&eacute;e PMI) indique &agrave; quel point deux termes sont statistiquement d&eacute;pendants, en fonction du nombre de propos index&eacute;s par les deux termes et chaque terme s&eacute;par&eacute;ment &nbsp;(c.f. Equation~ ef{PMIsEq}). \<br /> Les valeurs de PMI varient entre $-1$ et $1$, o&ugrave; $-1$ signifie que les deux termes ne sont jamais utilis&eacute;s ensemble pour indexer un propos, $0$ signifie l&#39;ind&eacute;pendance des termes et $1$ signifie une co-occurrence syst&eacute;matique des termes.</p> <p>egin{equation}label{PMIsEq}<br /> PMI(i,j) = log_{2}frac{p(i,j)}{p(i)p(j)} ~~/~~ -log_{2}~~p(i,j)<br /> end{equation}</p> <p> oindent o&ugrave; $p(i)$ et $p(j)$ repr&eacute;sentent respectivement les probabilit&eacute;s qu&#39;un propos soit index&eacute; par les termes $i$ et $j$,<br /> tandis que $p(i,j)$ est la probabilit&eacute; qu&#39;un propos soit index&eacute; par les deux termes $i$ et $j$.<br /> medbreak<br /> Sur la base de la PMI, la mesure de surprise d&#39;un terme $i$ pour la r&egrave;gle $r$ est d&eacute;finie comme la valeur moyenne de PMI des termes dans la r&egrave;gle (c.f. Equation~ ef{surpriseOccEq}).<br /> %%Il est a noter qu&#39;une valeur &eacute;lev&eacute;e de $Surprise_{co-occ}^{avg}$ signifie une surprise &eacute;lev&eacute;e.</p> <p><br /> egin{equation}label{surpriseOccEq}<br /> Surprise_{co-occ}^{avg}(i,r)= 1 - frac{1}{|T_{r}|} sum_{j in T_{r}} PMI(i,j)<br /> end{equation}</p> <p> oindent o&ugrave; $i$ est un terme, $r$ est une r&egrave;gle (implication) et $T_{r}$ sont les termes de la r&egrave;gle r.</p> <p>medbreak</p> <p>%<br /> %limite: Nous notons que la d&eacute;finition de la m&eacute;trique de surprise bas&eacute;e sur la co-occurrence peut &ecirc;tre sensible aux termes rares, car on sait que la mesure de PMI est biais&eacute;e en faveur des paires de termes rares.</p> <p>La surprise bas&eacute;e sur la co-occurrence permet de tenir compte du contexte local du d&eacute;bat et des rapprochements de termes que celui-ci peut engendrer. Toutefois, l&#39;ind&eacute;pendance statistique n&#39;implique pas une similarit&eacute; s&eacute;mantique faible. En effet, deux contributeurs peuvent respectivement pr&eacute;f&eacute;rer utiliser le terme og extit{v&eacute;lo} fg et og extit{bicyclette} fg. Ces deux termes sont alors, dans le d&eacute;bat, en co-occurrence nulle ou faible, alors qu&#39;ils sont s&eacute;mantiquement tr&egrave;s proches. La surprise bas&eacute;e sur le contenu s&eacute;mantique des termes (leur voisinage, c.f. Section~ ef{voisin}) permet de tenir compte de ce type de ph&eacute;nom&egrave;nes.</p> <p>subsubsection{Surprise bas&eacute;e sur le voisinage des termes}label{voisin}<br /> Notre deuxi&egrave;me mesure de surprise est bas&eacute;e sur la distance appliqu&eacute;e aux termes associ&eacute;s aux termes cibles. Le voisinage d&#39;un terme $t$ dans la base de connaissances JDM est l&#39;ensemble des termes auquel $t$ est reli&eacute; par la relation d&#39;association d&#39;id&eacute;es.&nbsp;<br /> Nous avons utilis&eacute; le compl&eacute;ment de la m&eacute;trique de similarit&eacute; de Jaccard pour comparer les termes (c.f. Equation~ ef{distanceEq}).<br /> medbreak</p> <p><br /> egin{equation}label{distanceEq}<br /> dist(i,j)= 1 - frac{A_{i} cap A_{j}}{A_{i} cup A_{j}}<br /> end{equation}</p> <p> oindent o&ugrave; $A_{i}$ et $A_{j}$ sont respectivement les ensembles de termes associ&eacute;s aux termes $i$ et $j$. Dans le cas o&ugrave; le terme $A$ est polys&eacute;mique, on consid&egrave;re sa d&eacute;sambigu&iuml;sation lexicale pour extraire les termes qui sont associ&eacute;s au contexte des r&egrave;gles. \<br /> Par exemple, sont associ&eacute;s au terme og extit{monnaie} fg &nbsp;de fa&ccedil;on non-exhaustive les termes : og extit{argent, pi&egrave;ce, billet, euro, devise} fg, le terme og extit{fric} fg aura comme termes associ&eacute;es : og extit{argent, pi&egrave;ce, billet, euro, thune} fg. La distance entre ces deux termes est de $1 - 4/6 = 1/3$.<br /> medbreak<br /> Pour mesurer la surprise d&#39;un terme, nous calculons la distance moyenne entre le terme cible $i$ et les autres termes $T_{r}$ de la r&egrave;gle $r$ comme indiqu&eacute; dans l&#39;&eacute;quation~ ef{surpriseContentEq}.<br /> %Une surprise est consid&eacute;r&eacute;e plus grande lorsque la valeur de $Surprise_{vois}^{avg}$ est &eacute;lev&eacute;e.</p> <p>egin{equation}label{surpriseContentEq}<br /> Surprise_{vois}^{avg}(i,r)= frac{1}{|T_{r}|} sum_{j in T_{r}} dist(i,j)<br /> end{equation}</p> <p> oindent o&ugrave; $i$ est un terme, $r$ une r&egrave;gle (implication) et $T_{r}$ sont les termes de la r&egrave;gle $r$.</p> <p>%</p> <p>%limite: Nous notons que la m&eacute;trique bas&eacute;e sur le contenu est sensible &agrave; la qualit&eacute; des termes associ&eacute;s aux termes d&#39;ind&eacute;xation de base pouvant mal refl&eacute;ter la diff&eacute;rences entre ces derniers.</p> <p>%Dans ce travail, pour les deux variantes de la mesure de surprise, on distingue entre la surprise intra-r&egrave;gles qui mesure le niveau de surprise entre les termes de la conclusion des r&egrave;gles et la surprise inter-r&egrave;gles qui mesure la surprise entre les termes des pr&eacute;misses et conclusions des r&egrave;gles.&nbsp;</p> <p>section{R&eacute;sultats et discussions}label{resultats}<br /> Afin d&#39;aider &agrave; l&#39;interpr&eacute;tation des r&eacute;sultats de l&#39;algorithme, nous commen&ccedil;ons dans cette section par pr&eacute;senter les donn&eacute;es ayant servi &agrave; cette &eacute;valuation. Nous cherchons ensuite &agrave; mettre en &eacute;vidence la pertinence de chaque module employ&eacute;, ceci en mettant en place des configurations contrastives de l&#39;algorithme rendant possible la comparaison des r&eacute;sultats permis par chaque sous-module.&nbsp;<br /> subsection{Jeux de donn&eacute;es et configurations}<br /> Nous proc&eacute;dons &agrave; l&#39;&eacute;valuation de notre approche &agrave; l&#39;aide des donn&eacute;es issues d&#39;un d&eacute;bat sur la plate-forme AREN concernant les monnaies localesfootnote{ scriptsizeurl{https://portail-aren.lirmm.fr/aren2023/debates/6}} intitul&eacute; &laquo; Les monnaies locales sont-elles un outil pour sauver l&#39;&eacute;conomie locale et dans quelles conditions? &raquo;. Les principales caract&eacute;ristiques de notre jeu de donn&eacute;es sont pr&eacute;sent&eacute;es dans le Tableau~ ef{tab:debat}.&nbsp;</p> <p>egin{table}[ht]<br /> &nbsp;egin{center}<br /> &nbsp; abcolsep = 2 abcolsep<br /> &nbsp; egin{tabular}{cccc}<br /> &nbsp; hlinehline<br /> &nbsp; D&eacute;battants &amp; Arguments &amp; Mots-cl&eacute;s &amp; P&eacute;riode\<br /> &nbsp; hline<br /> &nbsp; 8 &amp; 48 &amp; 464 &amp; Mars 2020 -- Mai 2023\<br /> &nbsp; hline<br /> &nbsp; end{tabular}<br /> caption{Statistiques du d&eacute;bat sur les monnaies locales.} label{tab:debat}<br /> &nbsp;end{center}<br /> end{table}<br /> Chaque argument d&#39;un d&eacute;battant est associ&eacute; &agrave; un texte initial du d&eacute;bat et d&eacute;crit par une reformulation, une phrase qui refl&egrave;te sa compr&eacute;hension du texte argument&eacute; ( extit{&laquo; La monnaie locale est un outil financier &raquo;} : Figure~ ef{fig:enrichissement}), et une opinion ($83.33\%$ des arguments sont og extit{plut&ocirc;t d&#39;accord} fg~ et $16.67\%$ ne sont og extit{plut&ocirc;t pas d&#39;accord} fg). En total, $464$ mots-cl&eacute;s distincts ont &eacute;t&eacute; utilis&eacute;s pour indexer les reformulations dont $125$ termes uniques sont propos&eacute;s par les utilisateurs et $339$ par {small extit{ID&Eacute;FIX}}. En moyenne, chaque d&eacute;battant a utilis&eacute; $5.39$ termes par argument. &nbsp;<br /> medbreak</p> <p>Nous comparons les r&eacute;sultats de trois variantes de notre approche pour mesurer l&#39;effet de l&#39;augmentation s&eacute;mantique sur la qualit&eacute; des r&eacute;sultats de l&#39;AFC. Les d&eacute;tails de nos m&eacute;thodes sont &eacute;num&eacute;r&eacute;s ci-dessous:&nbsp;<br /> medbreak<br /> egin{itemize}<br /> &nbsp; &nbsp;item $KT$ : Les implications sont calcul&eacute;es &agrave; partir du contexte d&#39;extraction initial, d&eacute;fini par la relation binaire entre les reformulations des d&eacute;battants et les termes-cl&eacute;s qui les indexent.&nbsp;<br /> &nbsp; &nbsp;item $KT^{dagger}$ : Le contexte d&#39;extraction est enrichi par les synonymes des termes qui d&eacute;finissent les attributs pour g&eacute;n&eacute;rer les implications. On s&#39;int&eacute;resse aux termes synonymes qui sont d&eacute;j&agrave; utilis&eacute;s lors de l&#39;indexation initiale ($R^{ullet}$) et aussi ceux qui ne le sont pas ($R^{circ}$), donc, de nouveaux termes n&#39;apparaissant pas dans le d&eacute;bat.<br /> &nbsp; &nbsp;item $KT^{ddagger}$ : Identique &agrave; la configuration pr&eacute;c&eacute;dente avec des hyperonymes au lieu de synonymes.<br /> end{itemize}</p> <p><br /> subsection{R&eacute;sultats}&nbsp;<br /> Nous commen&ccedil;ons par proposer une vue quantitative des r&eacute;sultats des diff&eacute;rentes configurations. Nous rapportons, dans le Tableau~ ef{tab:implications}, le nombre d&#39; extit{attributs}, extit{irr&eacute;ductibles} et extit{implications} dans les configurations se limitant, ou pas, aux termes-cl&eacute;s du d&eacute;bat.&nbsp;<br /> medbreak<br /> egin{table}[ht]<br /> &nbsp;egin{center}<br /> &nbsp; abcolsep = 2 abcolsep<br /> &nbsp; egin{tabular}{lccccc}<br /> &nbsp; hlinehline<br /> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &amp; $KT$ &amp; multicolumn{2}{c}{$KT^{dagger}$} &amp; multicolumn{2}{c}{$KT^{ddagger}$} \<br /> &nbsp; hline<br /> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&amp;&amp; $DL^{circ}$ &amp; $DL^{ullet}$ &amp; $DL^{circ}$ &amp; $DL^{ullet}$ \<br /> &nbsp; hline<br /> &nbsp; &nbsp;multicolumn{6}{l}{ extit{ extbf{Avec restriction aux termes-cl&eacute;s du d&eacute;bat}}}\<br /> &nbsp; hline<br /> &nbsp; &nbsp;Attributs &amp; 464 &amp; 464 &amp; 464 &amp; 464 &amp; 464 \<br /> &nbsp; &nbsp;Irr&eacute;ductibles &amp; &nbsp;70 &nbsp;&amp; 73 &amp; 68 &nbsp;&amp; &nbsp;83 &amp; 79 \<br /> &nbsp; &nbsp;Implications &amp; &nbsp;43 &nbsp;&amp; 54 &amp; 46 &nbsp;&amp; 75 &amp; 71 \<br /> &nbsp; hline<br /> &nbsp; multicolumn{6}{l}{ extit{ extbf{Sans restriction aux termes-cl&eacute;s du d&eacute;bat}}}\<br /> &nbsp; hline<br /> &nbsp; &nbsp;Attributs &amp; 464 &amp; 3831 &amp; 2240 &amp; 1125 &amp; 866 \<br /> &nbsp; &nbsp;Irr&eacute;ductibles &amp; 70 &amp; 161 &amp; 85 &amp; 121 &amp; 103 \<br /> &nbsp; &nbsp;Implications &amp; 43 &amp; 114 &amp; 50 &amp; 106 &amp; 88 \<br /> &nbsp; hline<br /> &nbsp; hline<br /> &nbsp; end{tabular}<br /> caption{R&eacute;sultats de KT (KeepTalk) avec et sans restriction aux termes-cl&eacute;s du d&eacute;bat : Le nombre d&#39;objets demeure constant pour toutes les configurations et est &eacute;gal &agrave; $48$. $DL^{circ}$/$DL^{ullet}$ d&eacute;signent l&#39;utilisation ou non de la t&acirc;che de d&eacute;sambigu&iuml;sation lexicale.} label{tab:implications}<br /> &nbsp;end{center}<br /> end{table}</p> <p>Quand l&#39;ajout de termes n&#39;est pas restreint &agrave; ceux du d&eacute;bat, nous observons une augmentation du nombre d&#39;attributs. Inversement, si on se restreint aux termes du d&eacute;bat, le nombre d&#39;attributs est constant.<br /> Dans tous les cas, l&#39;utilisation &nbsp;de la d&eacute;sambigu&iuml;sation lexicale r&eacute;duit le nombre d&#39;objets produits (irr&eacute;ductibles et implications), ceci est conforme &agrave; l&#39;intuition car la d&eacute;sambigu&iuml;sation r&eacute;duit l&#39;&eacute;parpillement lexical. Par ailleurs, l&#39;ajout d&#39;hyperonymes est plus productif que l&#39;ajout de synonymes, car il est possible de trouver au moins un hyperonyme pour la quasi-totalit&eacute; des attributs (qui sont des termes), ceci est beaucoup moins vrai pour les synonymes.</p> <p>medbreak</p> <p>La premi&egrave;re exp&eacute;rimentation rapporte la proportion des relations d&#39;association qui sont consid&eacute;r&eacute;es comme correctes/pertinentes. Ces associations sont g&eacute;n&eacute;r&eacute;es &agrave; partir des r&egrave;gles produites (implications). Cette &eacute;tape consiste en une &eacute;valuation men&eacute;e manuellement par 4 intervenants adoptant le r&ocirc;le og d&#39;experts fg.</p> <p>egin{table}[!h]<br /> &nbsp; &nbsp; centering<br /> &nbsp; &nbsp; egin{tabular}{ccc}<br /> hline<br /> hline<br /> Sans augmentation &amp;multicolumn{2}{c}{60.11 \%}\<br /> hline<br /> &nbsp;&amp; $DL^{circ}$ &amp; $DL^{ullet}$ &nbsp; &nbsp;\<br /> &nbsp;hline<br /> Augmentation avec restriction ({$R^{ullet}$}) &amp; 63.12 \% (1) &amp; 72.07 \% (2)\<br /> hline<br /> Augmentation sans restriction ({$R^{circ}$}) &amp; 42.60 \% (4) &amp; 76.77 \% (3) \<br /> hline<br /> end{tabular}<br /> &nbsp; &nbsp; caption{Pourcentage des bonnes associations selon une &eacute;valuation manuelle men&eacute;e par 4 experts.}<br /> &nbsp; &nbsp; label{tab:evaluationExperts}<br /> end{table}</p> <p>Nous cherchons &agrave; travers le Tableau~ ef{tab:evaluationExperts} &agrave; classer les configurations de notre syst&egrave;me en termes de og qualit&eacute; fg, du point de vue d&#39;utilisateurs humains. Le cas 1 signifie que dans une configuration se restreignant aux termes du d&eacute;bat et sans proc&eacute;dure de d&eacute;sambigu&iuml;sation, 63.12\% des relations d&#39;association &agrave; ajouter &agrave; la base de connaissance sont jug&eacute;s correctes par les experts. &nbsp;Pour la meilleure configuration (cas 3), &nbsp;o&ugrave; nous proc&eacute;dons &agrave; une d&eacute;sambigu&iuml;sation &nbsp;sans se limiter aux termes-cl&eacute;s du d&eacute;bat, nous obtenons 76.77\% de bonnes associations.</p> <p>egin{table}[!h]<br /> &nbsp;egin{center}<br /> &nbsp; esizebox{ extwidth}{!}{<br /> &nbsp; abcolsep = 2 abcolsep<br /> &nbsp; egin{tabular}{lccccc}<br /> &nbsp; hlinehline<br /> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &amp; $KT$ &amp; multicolumn{2}{c}{$KT^{dagger}$} &amp; multicolumn{2}{c}{$KT^{ddagger}$} \<br /> &nbsp; hline<br /> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&amp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &amp; $DL^{circ}$ &amp; $DL^{ullet}$ &amp; &nbsp; &nbsp; &nbsp; $DL^{circ}$ &amp; $DL^{ullet}$ &nbsp; &nbsp; &nbsp;\<br /> &nbsp; hline<br /> &nbsp; &nbsp;multicolumn{6}{l}{ extit{ extbf{Avec restriction aux termes-cl&eacute;s du d&eacute;bat: $R^{ullet}$}}}\<br /> &nbsp; hline<br /> &nbsp; Support &nbsp;&amp; &nbsp;0.0667 &nbsp;&amp; &nbsp;0.1300 &nbsp;&amp; &nbsp;0.0836 &nbsp;&amp; extbf{0.1658} &amp; 0.1390\<br /> &nbsp; Nouveaut&eacute; &nbsp;&amp; &nbsp;0.0546 &amp; &nbsp;0.0681 &nbsp;&amp; &nbsp;0.0564 &amp; extbf{0.0733} &amp; 0.0690\<br /> &nbsp; %Surprise par co-occurrence (conclusion) &amp; 0.6782 &nbsp;&amp; &nbsp;0.1810 &nbsp; &amp; extbf{0.0081} &amp; 0.4540 &amp; 0.5621\<br /> &nbsp; Surprise par co-occurrence &amp; 0.5662 &nbsp;&amp; &nbsp; extbf{0.7995} &nbsp;&amp; &nbsp;0.5304 &nbsp;&amp; 0.1270 &amp; 0.1294 \<br /> &nbsp; %Surprise par contenu (conclusion) &amp; &nbsp;0.7140 &nbsp;&amp; &nbsp;0.8501 &nbsp;&amp; 0.8130 &amp; extbf{0.9241} &amp; 0.9100\<br /> &nbsp; Surprise par voisinage &amp; &nbsp;0.9488 &nbsp;&amp; &nbsp;0.9623 &nbsp;&amp; 0.9706 &amp; 0.9674 &amp; extbf{0.9718}\<br /> &nbsp; hline<br /> &nbsp; Score agr&eacute;g&eacute; &amp; 0.2103 &amp; 0.2872 &amp; 0.2215 &amp; 0.1965 &amp; 0.1863 \<br /> &nbsp; Score agr&eacute;g&eacute; syn+hyper &amp; &amp;multicolumn{2}{c}{0.4838}&amp;multicolumn{2}{c}{0.4079}\<br /> &nbsp; hline<br /> &nbsp; &nbsp;multicolumn{6}{l}{ extit{ extbf{Sans restriction aux termes-cl&eacute;s du d&eacute;bat: $R^{circ}$}}}\<br /> &nbsp; hline<br /> &nbsp; Support &nbsp;&amp; 0.0667 &amp; 0.1352 &amp; 0.0978 &amp; extbf{0.1667} &amp; 0.1359\<br /> &nbsp; Nouveaut&eacute; &nbsp;&amp; 0.0546 &amp; 0.0780 &amp; 0.0615 &amp; extbf{0.0799} &amp; 0.0676\<br /> &nbsp; % par co-occurrence (conclusion) &amp; &amp;&amp; 0.7065 &amp;&amp;\<br /> &nbsp; Surprise par co-occurrence &amp; 0.5662 &amp; extbf{0.7167} &amp; 0.4534 &amp; 0.3481 &amp; 0.1957\<br /> &nbsp; %Surprise par contenu (conclusion) &amp; &nbsp;&amp;&amp; 0.8155 &amp; &amp;\<br /> &nbsp; Surprise par voisinage &amp; 0.9488 &amp; 0.9502 &amp; extbf{0.9602} &amp; 0.8997 &amp; 0.9497\<br /> &nbsp; hline<br /> &nbsp; Score agr&eacute;g&eacute; &amp; 0.2103 &amp; 0.2911 &amp; 0.2262 &amp; 0.2541 &amp; 0.2032 \<br /> &nbsp; Score agr&eacute;g&eacute; syn+hyper &amp; &amp;multicolumn{2}{c}{0.5452}&amp;multicolumn{2}{c}{0.4294}\<br /> &nbsp; hline<br /> &nbsp; end{tabular}}<br /> caption{Comparaison des r&eacute;sultats de l&#39;analyse formelle de concepts : $KT$ avec le contexte initial ; $KT^{dagger}$ avec le contexte augment&eacute; avec les synonymes ; $KT^{ddagger}$ avec le contexte augment&eacute; avec les hyperonymes. L&#39;augmentation est faite avec et sans restriction aux termes du d&eacute;bat.} label{tab:r&eacute;sultats}<br /> &nbsp;end{center}<br /> &nbsp;%vskip -5mm<br /> end{table}<br /> %vskip -0mm</p> <p>Dans le Tableau~ ef{tab:r&eacute;sultats}, nous constatons que la nouveaut&eacute; est globalement tr&egrave;s faible, ce qui indique que l&#39;on trouve &nbsp;peu d&#39;associations n&#39;existant pas dans la base de connaissances. Ceci est positif du point de vue de la compl&eacute;tude de la base. On constate par ailleurs que la surprise est globalement tr&egrave;s haute, ce qui veut dire qu&#39;une information nouvelle n&#39;aurait pas pu &ecirc;tre inf&eacute;r&eacute;e, dans la quasi-totalit&eacute; des cas. Ceci est un autre r&eacute;sultat tr&egrave;s positif qui justifie l&#39;utilit&eacute; de notre approche d&#39;extraction de connaissances.&nbsp;</p> <p>egin{table}[!h]<br /> &nbsp; &nbsp; centering<br /> &nbsp; &nbsp; egin{tabular}{ccc}<br /> hline<br /> hline<br /> Sans augmentation &amp;multicolumn{2}{c}{0.1264}\<br /> hline<br /> &nbsp;&amp; $DL^{circ}$ &amp; $DL^{ullet}$ &nbsp; &nbsp;\<br /> &nbsp;hline<br /> Augmentation avec restriction ({$R^{ullet}$}) &amp; 0.3048 (1) &amp; 0.2939 (2) \<br /> hline<br /> Augmentation sans restriction ({$R^{circ}$}) &amp; 0.2290 (4) &amp; 0.3264 (3) \<br /> hline<br /> end{tabular}<br /> &nbsp; &nbsp; caption{Combinaison des r&eacute;sultats des m&eacute;triques avec la proportion des bonnes associations (&eacute;valuation manuelle) - Il s&#39;agit d&#39;un score et non d&#39;un pourcentage. }<br /> &nbsp; &nbsp; label{tab:evaluationCombination}<br /> end{table}<br /> vskip -3mm</p> <p>Nous observons un effet conjoint &agrave; l&#39;&eacute;tape de d&eacute;sambigu&iuml;sation $DL$ et &agrave; la restriction $R$ ou non aux termes-cl&eacute;s du d&eacute;bat. Ce croisement est clarifi&eacute; dans le Tableau~ ef{tab:evaluationCombination}. La configuration la plus favorable est celle avec une augmentation avec synonymes et hyperonymes sans $R$ et avec &eacute;tape de $DL$ (cas 3).&nbsp;<br /> La seconde meilleure configuration est celle sans $DL$ et avec $R$ (cas 1). La pire configuration, qui a de tr&egrave;s mauvais r&eacute;sultats, est la combinaison de $R^{circ}$ et $DL^{circ}$ (cas 4). Le score du dernier cas (cas 2 : $R^{ullet}$ et $DL^{ullet}$), &nbsp;bien que correct, est inf&eacute;rieur aux cas 1 et 3.<br /> medbreak<br /> La d&eacute;sambigu&iuml;sation lexicale ($DL$) et la restriction ($R$) aux termes d&eacute;j&agrave; pr&eacute;sents dans le d&eacute;bat, visent le m&ecirc;me but, contr&ocirc;ler le foisonnement lexical, et ne pas tomber dans le pi&egrave;ge de polys&eacute;mie.&nbsp;<br /> L&#39;approche avec $R$ permet de ne pas introduire de termes qui ne sont pas apparus dans le d&eacute;bat, il n&#39;y a donc aucune chance d&#39;introduire, par accident, un terme sans rapport. Le cas 2 est int&eacute;ressant car il n&#39;est pas intuitif : en effet, on s&#39;attendrait &agrave; ce que l&#39;action conjointe de $D$ et $R$ donne les meilleurs r&eacute;sultats, or ce n&#39;est pas le cas. A priori l&#39;effet restrictif conjoint de $DL$ et $R$ emp&ecirc;che un rapprochement efficace des propos du d&eacute;bat. Ne pas faire de $R$ permet d&#39;augmenter la richesse des associations, toutefois cette richesse doit &ecirc;tre contr&ocirc;l&eacute;e par la $DL$.&nbsp;<br /> %vskip -5mm<br /> section{Conclusion et perspectives}label{conclusion}<br /> %vskip -1mm<br /> %% parler de :<br /> %% pertinence de l&#39;&eacute;tape de desamb<br /> %% pertienent si on ne se limite pas aux termes du d&eacute;bat<br /> %%<br /> Dans cet article, nous avons pr&eacute;sent&eacute; une IA d&#39;accompagnement de d&eacute;bats, KeepTalk (Knowledge Extraction for Enhanced online Public Talks and Argumentative Learning Know-how), dont un des objectifs est d&#39;extraire des associations nouvelles entre termes &agrave; partir des listes de termes-cl&eacute;s des arguments d&rsquo;un d&eacute;bat. Une association pertinente est celle qui permet d&#39;inf&eacute;rer des connaissances nouvelles, et qui est elle-m&ecirc;me non ou difficilement inf&eacute;rable.</p> <p>Les d&eacute;bats analys&eacute;s sont issus de la plate-forme AREN con&ccedil;ue dans le cadre du projet AREN-DIA.<br /> Les d&eacute;battants se r&eacute;pondant les uns aux autres, une quantit&eacute; importante d&#39;information est implicite, ce qui nous a encourag&eacute; &agrave; solliciter les utilisateurs &agrave; participer &agrave; l&#39;indexation de leur propos. L&#39;exploitation des &eacute;l&eacute;ments d&#39;indexation est r&eacute;alis&eacute; de fa&ccedil;on it&eacute;rative durant l&#39;enti&egrave;ret&eacute; du d&eacute;bat.<br /> Les ensembles de termes indexant chaque commentaire sont co-construits d&#39;un c&ocirc;t&eacute;, par la proc&eacute;dure automatis&eacute;e ({small extit{ID&Eacute;FIX}}), et de l&#39;autre, par une extit{supervision} et extit{compl&eacute;tion} par les utilisateurs des termes extraits par {small extit{ID&Eacute;FIX}}. Cette supervision est permise en donnant &agrave; l&#39;utilisateur la possibilit&eacute; de extit{proposer, valider ou invalider} des termes de l&#39;ensemble propos&eacute; par l&#39;IA accompagnant le d&eacute;bat. Ce retour est pris en compte lors des it&eacute;rations de descriptions th&eacute;matiques ult&eacute;rieures, menant &agrave; une indexation de meilleure qualit&eacute;.</p> <p>La partie calculatoire de l&#39;approche propos&eacute;e est organis&eacute;e en plusieurs modules aboutissant &agrave; une &eacute;tape d&#39;extraction de connaissances aliment&eacute;e par l&#39;analyse formelle de concepts. Apr&egrave;s une augmentation lexicale, cette &eacute;tape permet de cr&eacute;er des implications entre termes (par exemple, si A est pr&eacute;sent alors B et C sont aussi pr&eacute;sents).<br /> Les implications produites sont destin&eacute;es &agrave; &ecirc;tre introduites dans la base de connaissances. Par exemple, si nous avons $A ightarrow B, C$, alors dans le r&eacute;seau lexical JDM nous ajouterons : A extit{r\_associated} B et A extit{r\_associated} C.&nbsp;</p> <p>Les r&eacute;sultats obtenus sont prometteurs et soulignent l&#39;efficacit&eacute; d&#39;effectuer conjointement une analyse bas&eacute;e sur l&#39;AFC et une augmentation lexicale &agrave; partir d&#39;une base de connaissances. La base de connaissances (JeuxDeMots) s&#39;en trouve am&eacute;lior&eacute;e et par ricochet les propositions automatique de termes-cl&eacute;s augmentent en pertinence.<br /> En perspective, il serait important, sur la base des scores de l&#39;&eacute;valuation manuelle, d&#39;agr&eacute;ger les scores des m&eacute;triques automatiques de mani&egrave;re &agrave; obtenir un score global qui serait repr&eacute;sentatif de la qualit&eacute; (que nous avons cherch&eacute; &agrave; obtenir ici par une &eacute;valuation manuelle).<br /> Concernant l&#39;extraction des connaissances, en perspective, le projet explorera d&#39;autres repr&eacute;sentations des r&eacute;gularit&eacute;s : autres implications, r&egrave;gles d&#39;association et relations causales ; ce qui permettra d&#39;ajouter dans la base de connaissances des informations sur des types de relations plus pr&eacute;cises (autres que les associations d&#39;id&eacute;es).<br /> Dans la continuit&eacute; du sch&eacute;ma d&#39;incitation de l&#39;utilisateur &agrave; compl&eacute;ter ses propos, on pourrait envisager, en perspective &agrave; ce travail, l&#39;int&eacute;gration d&#39;une IA g&eacute;n&eacute;rative &agrave; des fins d&#39;animation ou de synth&egrave;se du d&eacute;bat. Cet agent produirait de nouveaux propos au d&eacute;bat &agrave; partir du contenu structur&eacute; issu des proc&eacute;dures d&#39;indexation des commentaires des utilisateurs.<br /> %vskip -10mm<br /> &nbsp;<br /> %vskip -0mm<br /> ibliographystyle{apalike}<br /> ibliography{biblio}</p> <p>%vskip -2mm<br /> appendix</p> <p><br /> Fr</p> <p>end{document}</p> <p><br /> &nbsp;</p>