<p>%% -*- TeX -*- -*- FR -*-</p>
<p>%Avant propos : ces exemples de fichiers ont été mis à jour grâce à<br />
%l'aide précieuse de Gilbert Ritschard. Pour toute question ou<br />
%remarque n'hésitez pas à nous contacter : venturin@univ-tours.fr ou<br />
%gilbert.ritschard@themes.unige.ch<br />
%Version 3 2008-05-21<br />
%Version 3.1 2012-11-26 Bruno Pinaud <bruno.pinaud@labri.fr><br />
%Version 3.2 2016-06-02 Bruno Pinaud <bruno.pinaud@labri.fr></p>
<p>documentclass[a4paper,french]{rnti}<br />
%documentclass[a4paper,french,submission]{rnti} %% pour soumission à EGC</p>
<p>%documentclass[a4paper,french,noresume,nosummary]{rnti} %% Pour papier de 2 pages</p>
<p>%%% Avec l'option "showlayout" vous obtenez les deux pages<br />
%%% de contrôle des paramètres de mise en page.</p>
<p>%documentclass[a4paper,footer,french,showlayout]{rnti}</p>
<p>%packages nécessaires pour écrire des articles en français en utilisant les accents non latex.<br />
usepackage[T1]{fontenc}<br />
usepackage[utf8]{inputenc}</p>
<p>%pour bien présenter les URL et autres adresses emails<br />
usepackage{url}<br />
usepackage{xcolor}<br />
usepackage{graphicx}<br />
usepackage{caption}<br />
usepackage[hyperfootnotes=false,colorlinks=true,citecolor=blue,urlcolor=blue,filecolor=blue,backref=page]{hyperref}</p>
<p>%% ML a ajouté cela<br />
usepackage{multicol}<br />
usepackage{scrextend}<br />
usepackage{amssymb}<br />
usepackage{amsmath}<br />
usepackage{ragged2e}</p>
<p>% Titre court pour entête<br />
itrecourt{Extraction de connaissances pour l'accompagnement de débats en ligne}</p>
<p>% Noms auteurs pour entête :<br />
% Si un seul auteur, mettre : Initiale. NomPremierAuteur<br />
% Si deux auteurs, mettre : Initiale1. NomPremierAuteur et Initiale1. NomDeuxiemeAuteur<br />
% Si plus de deux auteurs, mettre comme ci-dessous<br />
%<br />
omcourt{I.Ben Sassi et al.}</p>
<p><br />
itre{Débats en ligne : l'analyse formelle de concepts comme outil d'extraction de connaissances\<br />
{large extit{Online debates: Formal Concept Analysis as a Knowledge Extraction Tool}} <br />
}%Extraction de connaissances basée sur l'analyse formelle de concepts en vue de l'assistance aux débats en ligne}</p>
<p>auteur{Imen Ben Sassi,<br />
Hani Guenoune,<br />
Alexandre Bazin, %affilsepaffil{2},<br />
Marianne Huchard,\<br />
Mathieu Lafourcade,<br />
Jean Sallantin}</p>
<p>affiliation{<br />
LIRMM, Université de Montpellier, CNRS, Montpellier, France\<br />
%prenom.nom@lirmm.fr<br />
imen.ben-sassi@lirmm.fr, hani.guenoune@lirmm.fr, alexandre.bazin@lirmm.fr,\ marianne.huchard@lirmm.fr, mathieu.lafourcade@lirmm.fr, jean.sallantin@lirmm.fr<br />
%mail\<br />
}<br />
<br />
<br />
ewcommand{
b}[2]{<br />
fbox{fseriessffamilyscriptsize#1}%<br />
{sfsmall extit{ extcolor{blue}{#2}}}%<br />
}<br />
ewcommandAB[1]{
b{Alexandre}{#1}}<br />
<br />
usepackage{rotating}</p>
<p>usepackage{algorithm}<br />
usepackage{algpseudocode}</p>
<p>
enewcommand{listalgorithmname}{Liste des algorithmes}<br />
floatname{algorithm}{Algorithme}<br />
enewcommand{algorithmicreturn}{ extbf{retourner}}<br />
enewcommand{algorithmicprocedure}{ extbf{procédure}}<br />
enewcommand{And}{ extbf{et} }<br />
enewcommand{algorithmicrequire}{ extbf{Entrée:}}<br />
enewcommand{algorithmicensure}{ extbf{Sortie:}}<br />
%
enewcommand{algorithmiccomment}[1]{{#1}}<br />
enewcommand{algorithmicend}{ extbf{fin}}<br />
enewcommand{algorithmicif}{ extbf{si}}<br />
enewcommand{algorithmicthen}{ extbf{alors}}<br />
enewcommand{algorithmicelse}{ extbf{sinon}}<br />
enewcommand{algorithmicfor}{ extbf{pour}}<br />
enewcommand{algorithmicforall}{ extbf{pour tout}}<br />
enewcommand{algorithmicdo}{ extbf{faire}}<br />
enewcommand{algorithmicwhile}{ extbf{tant que}}<br />
ewcommand{algorithmicelsif}{algorithmicelse algorithmicif}<br />
ewcommand{algorithmicendif}{algorithmicend algorithmicif}<br />
ewcommand{algorithmicendfor}{algorithmicend algorithmicfor}</p>
<p> <br />
esume{Nous présentons un processus automatisé d'assistance aux débats qui cible l'extraction d'associations entre les termes à partir des listes de termes-clés issues des arguments. Ces listes sont co-élaborées par les utilisateurs et notre système d'indexation. Notre approche cherche à inciter les utilisateurs à proposer des termes-clés, stimulant ainsi leur participation et favorisant l'intelligibilité de leur propos. L'indexation sert de levier pour amener les utilisateurs à améliorer et à enrichir les listes de termes-clés, agissant comme un moteur pour la création de propos structurées.<br />
L'algorithme sous-jacent repose sur une analyse formelle de concepts et exploite une base de connaissances, le réseau lexico-sémantique JeuxDeMots (JDM). La procédure implique plusieurs modules, aboutissant à une étape d'extraction de connaissances sous forme d'implications destinées à être intégrées dans JDM. Cette approche collaborative permet à la base de connaissances de s'enrichir au fur et à mesure de l'analyse des débats, améliorant ainsi les termes-clés suggérés par la plate-forme.\<br />
MotsCles{Extraction de connaissances, Analyse formelle de concepts, Indexation thématique, Augmentation sémantique, Base de connaissances}<br />
}</p>
<p>summary{<br />
We present an online debate analysis automated process aiming to extract new associations between terms from co-constructed keyword lists of arguments by users and our indexing system.% The designed mechanism encourages users to propose keywords, thereby enhancing their participation.<br />
The calculation of keywords encourages users to supplement or correct the keyword list, serving as an incentive tool for developing more structured contributions. The algorithm is based on formal concept analysis and relies on the JeuxDeMots knowledge base. The procedure involves multiple modules leading to a knowledge extraction step in the form of implications intended to be integrated into JDM. This cooperative approach allows the knowledge base to enrich itself as debates are analyzed, improving the platform's suggested keywords.\<br />
%TC:ignore<br />
keywords{Knowledge extraction, Formel concept analysis, Thematic indexing, Semantic augmentation, Knowledge base}<br />
}</p>
<p><br />
egin{document}<br />
%layout<br />
% DEBUT DE L'ARTICLE<br />
%<br />
ewpage<br />
section{Introduction}</p>
<p><br />
%contribution<br />
% un interet du travail présenter est le couplage entre une approche structurelle ensembliste, l'AFC et une approche semantique fondé sur des inférences àa la kb (jdm) <br />
%<br />
Le projet AREN-DIA (ARgumentation Et Numérique - Didactique & Intelligence Artificielle)footnote{Ce projet est financé par l’Agence Nationale de la Recherche : ANR-22-FRAN-0001.} a pour objectif de sensibiliser les élèves, aussi bien sur les aspects de forme que ceux de fond, à la pratique du débat dans le cadre de leur éducation à la citoyenneté.<br />
Le projet se concrétise par la création d'une plate-forme de débats, qui s'ouvre également la société civile. Les débats menés sur l'application cherchent à assurer une éthique et une structuration des propos du débat.<br />
%L'évolution du projet AREN se matérialise à travers la création et la mise à l'épreuve d'un logiciel de débat au sein d'un environnement lycéen. Ce logiciel se démarque par deux avancées significatives.<br />
En offrant la possibilité d'engager des débats structurés à partir d'un texte, la plate-forme ARENfootnote{La plate-forme est accessible via le lien suivant : scriptsizeurl{https://portail-aren.lirmm.fr/aren2023/}} propose une approche renouvelant les échanges argumentatifs traditionnels. Autre fait intéressant, l'application présente la particularité d'intégrer une technologie collaborative de Traitement Automatique du Langage dont la finalité est d'augmenter l'efficacité du processus de débat.<br />
medbreak<br />
Dans cette perspective, AREN-DIA se déploie selon un axe didactique et un axe IA. Les expériences didactiques menées au sein des lycées ont conduit à des résultats révélant un essor marqué des compétences argumentatives chez les élèves, particulièrement avec une utilisation de AREN judicieuse et insérée dans un dispositif didactique approprié citep{bachtold:2023}. <br />
medbreak<br />
Concernant l'axe IA et ses enjeux, nous consacrons cet article à la présentation et l'évaluation des différents modules mis en place afin d'accompagner le débat. Au niveau général, nous nous intéressons à la manière de concevoir un mécanisme de renforcement incitant les utilisateurs à participer à l'amélioration du système d'IA produisant une représentation structurée des propos d'un débat. <br />
medbreak<br />
La plate-forme se présente comme un espace de débat, réunissant un ensemble d'utilisateurs. Le débat porte sur un texte support publié en amont sur la plate-forme. <br />
Les utilisateurs interviennent à travers des commentaires exprimant une opinion, une argumentation ou un avis sur un segment du texte support ou un commentaire préalablement publié, créant ainsi des embranchements dans l'arbre général du débat. <br />
medbreak<br />
Outre l'intervention des débattants, une procédure automatique vient compléter chaque commentaire en suggérant des termes-clés synthétisant les propos tenus. Cette opération d'indexation représente le point de départ de l'analyse et de l'accompagnement du débat par la machine. Elle est soumise à une complétion par les utilisateurs, qui seront invités à valider, invalider ou compléter ces termes-clés par ceux qu'ils estiment manquants. <br />
Afin de lever l'ambiguïté sémantique résultant de la polysémie des termes proposés, nous avons recours à une étape d'enrichissement sémantique des termes pour les préparer à l'opération d'extraction de connaissances basée sur l'analyse formelle de concepts (AFC). Ces connaissances, sous forme d'implications, seront utilisées pour mettre à jour les relations dans la base de connaissances exploitée lors de ces processus, JeuxDeMots (JDM) footnote{scriptsizeurl{https://fr.wikipedia.org/wiki/JeuxDeMots}}.<br />
medbreak<br />
L'article s'organise comme suit. Nous détaillons les étapes du fonctionnement général d'AREN dans la section~
ef{aren}. Nous nous pencherons également sur l'algorithme d'accompagnement du débat dans la section
ef{algo}, qui consiste en la production de termes-clés et d'une analyse AFC pour produire des associations de termes pertinentes. Nous définissons ensuite, dans la section~
ef{MesuresEal}, les différentes métriques utilisées pour évaluer l'utilité de l'augmentation sémantique des termes d'indexation des propos du débat. <br />
Nous comparons, dans la section~
ef{resultats}, les résultats obtenus avec l'AFC avant et après l'enrichissement sémantique des termes d'indexation. <br />
Nous nous penchons, dans la section~
ef{conclusion}, sur les défis spécifiques rencontrés dans AREN, notamment l'intéraction homme-machine et l'évaluation des implications obtenues avec l'AFC.</p>
<p><br />
%%%%%%%%%%%%%extensions possibles<br />
%%%%%%%%%%%%%<br />
%fusionner introduction et fonctionnement d'AREN<br />
%ajouter section état de l'art<br />
%partie 1: enrichissement sémantique dans le domaine NLP<br />
%partie 2: mesure d'évaluation de règles<br />
%ajouter les algos de notre approche: indéxation (Idéfix) + augmentation sémantique (raffinement) + extraction d'implication (génération d'irréductibles)<br />
%ajouter les xp du débat sur l'IA (lancer le débat)<br />
%%%%%%%%%%%%%%</p>
<p><br />
section{Fonctionnement de la plate-forme AREN}label{aren}</p>
<p>L'application constitue un espace de débat, faisant intervenir un ensemble d’utilisateurs. Un débat porte sur un texte support publié en amont sur la plate-forme, il est conjointement formé par le contenu du texte ainsi qu'un ensemble de commentaires créés par les utilisateurs et exprimant une opinion ciblée, une argumentation ou un avis sur un segment du texte support ou un commentaire préalablement publié.</p>
<p>Chaque intervention utilisateur comporte une extit{position} (d'accord ou pas d'accord), une extit{reformulation}, une extit{argumentation} et des extit{mot-clés}.<br />
La partie du texte que l'utilisateur souhaite commenter est choisie en sélectionnant, dans le texte de départ, le segment correspondant.<br />
La possibilité de sélectionner un segment aussi bien dans le texte support que dans un commentaire préalablement publié, permet la création d'embranchements dans l'arbre général du débat (c.f. Figure~
ef{figure:aren}).</p>
<p>egin{figure}[!h]<br />
egin{center}<br />
includegraphics[width=1 extwidth]{AREN.png}<br />
caption{Fonctionnement de la plate-forme AREN sous forme de cycles entre les interactions utilisateurs, le calculateur de termes-clés extit{IDÉFIX}, l'analyse formelle de concepts (AFC), et la base de connaissance JeuxDeMots. }<br />
label{figure:aren}<br />
end{center}<br />
end{figure} </p>
<p>Les commentaires sont constitués d'un ensemble d'informations construisant le propos de l'utilisateur, parmi ces informations se définit, entre autres, la position que prend le débattant (d'accord, pas d'accord) vis-à-vis de la sélection (le segment auquel il réagit).<br />
Les champs de texte libres, de extit{reformulation} et extit{d'argumentation}, sont prévus afin de consolider puis définir, l'avis du débattant.</p>
<p>%vskip -4mm</p>
<p>section{Algorithme d'accompagnement des débats}label{algo}</p>
<p>Nous présentons dans cet article une IA d'accompagnement de débats, KeepTalk ( extit{Knowledge Extraction for Enhanced online Public Talks and Argumentative Learning Know-how}), dont un des objectifs est d'extraire des associations nouvelles entre termes à partir des listes de termes-clés des arguments d'un débat. </p>
<p>L'approche est organisée en plusieurs modules aboutissant à une étape d'extraction de connaissances (c.f. Section~
ef{ExtractionConnaissances}) alimentée par l'analyse formelle de concepts. Après augmentation lexicale (c.f. Section~
ef{AugmentationSémantique}), cette étape permet de créer des implications entre termes (par exemple, si A est présent alors B et C sont aussi présents).<br />
Les implications produites sont destinées à être introduites dans la base de connaissances. Par exemple, si nous avons $A
ightarrow B, C$, alors dans le réseau lexical JDM nous ajouterons : A extit{r\_associated} B et A extit{r\_associated} C. <br />
medbreak<br />
La procédure de description thématique (c.f. Section~
ef{indexationThem}) sur laquelle s'assoit l'algorithme s'inscrit dans une démarche collaborative, itérative et incrémentale. Les ensembles de termes indexant chaque commentaire sont co-construits d'un côté, par la procédure automatisée ({small extit{IDÉFIX}}), et de l'autre, par une extit{supervision} et extit{complétion} par les utilisateurs des termes extraits par {small extit{IDÉFIX}}. Cette supervision est permise en donnant à l'utilisateur la possibilité de extit{proposer, valider ou invalider} des termes de l'ensemble proposé par l'IA accompagnant le débat. Ce retour est pris en compte lors des itérations de descriptions thématiques ultérieures, menant à une indexation de meilleure qualité. L'objectif étant d'assurer une amélioration de la base de connaissances à mesure que des débats sont analysés, avec en retour une amélioration des termes-clés suggérés par la plate-forme (via extit{IDÉFIX}) pour les arguments d'un débat. <br />
medbreak<br />
En outre, ce mécanisme est pensé de manière à inciter les utilisateurs à proposer des termes-clés complétant les propos du débat. Plus précisément, le calcul automatique de termes-clés pour un argument est un moyen de donner envie aux utilisateurs, et en particulier à l'auteur de l'argument, de compléter voire de corriger la liste des termes-clés proposés. Un mauvais terme-clé sera en général considéré par l'utilisateur comme une tache/erreur insupportable devant être nettoyée/corrigée.<br />
%Ce fonctionnement pourra servir d'outil de relance ou d'incitation à l'élaboration de points de vue, sous une forme autre que celle du commentaire textuel brut.</p>
<p>subsection{Indexation thématique}label{indexationThem}</p>
<p>Les divers arguments des participants au débat sont contenus dans des textes bruts et non-structurés. L'indexation thématique des commentaires a pour objectif d'associer ces données textuelles à une représentation structurée permettant de synthétiser les propos par des ensembles de termes-clés, référencés dans des bases de connaissances et pouvant servir de point d'entrée à une procédure automatisée. Les termes extraits peuvent désigner des concepts évoqués dans le texte ou des unités lexicales dont la saillance au sein du commentaire est jugée importante. Cette étape d'extraction de mots-clés s'appuie sur des connaissances externes issues du réseau lexico-sémantique <br />
extit{JDM} citep{lafourcade:2023}<br />
, et est réalisée par le service {small extit{IDÉFIX}}footnote{L'outil {scriptsize extit{IDÉFIX}} est accessible via le lien : scriptsizeurl{https://www.jeuxdemots.org/intern_extract.php}}. </p>
<p>%% <br />
%% JDM<br />
%%<br />
%%<br />
ewpage<br />
%%<br />
%% JeuxDeMots<br />
subsubsection*{hspace{parindent}JeuxDeMots, un réseau lexico-sémantique}<br />
extit{JDM} est un réseau lexico-sémantique sous forme de graphe orienté. Les nœuds du graphe représentent les termes, tandis que les arcs désignent des relations typées, pondérées et potentiellement annotées entre les termes (c.f. Figure~
ef{figure:JDM}).<br />
medbreak<br />
egin{figure}[!ht]<br />
egin{center}<br />
includegraphics[width=0.8 extwidth]{rezolexical2.jpg}<br />
caption{Portion du réseau lexico-sémantique JeuxDeMots. Deux raffinements du terme extit{souris} sont indiqués et sont l'objet d'une association contrastive (une positive et une négative) par le type r\_patient pour un prédicat lié au terme extit{attraper}. Le chat peut attraper une souris>rongeur, mais il ne peut pas attraper une souris>fille.}<br />
label{figure:JDM}<br />
end{center}<br />
end{figure} <br />
medbreak</p>
<p>Le graphe représente la polysémie des mots en explicitant des raffinements sémantiques hiérarchisés, où un sens spécifique est affilié au sens général du terme (via une relation de type exttt{r\_raff} de poids positif).<br />
Basé sur une série de notions, principes et outils originaux (ex. la notion de raffinement, la palette des types de relations sémantiques - les éléments d'information, des liens sémantiques entre un type de relation et son inverse ( extit{r\_isa} et extit{r\_hypo}, par exemple), l'outil contributif extit{Diko}, etc.), %<br />
le réseau JDM est conçu pour une utilisation humaine, mais en premier lieu comme support de connaissances pour des processus d'intelligence artificielle (analyse sémantique de texte, raisonnement, assistance à la prise de décision, résumé automatique, etc.).\ Un système de pondération (arcs pondérés, éventuellement négatifs) et de valuation symbolique (annotation en méta-informations, par exemple : rare, pertinent, non pertinent, etc.) a été mis en œuvre pour faciliter des heuristiques de parcours du graphe ainsi que son exploitation. Au 1er janvier 2024, JDM contient environ $560$ millions de relations entre plus de $7$ millions de termes et $22$ millions de nœuds.<br />
medbreak<br />
Le réseau extit{JDM} peut être utilisé avec des algorithmes classiques exploitant des bases de connaissances, mais également sous forme de réseau neuronal (approches hybrides, algorithmes de propagation et de rétro-propagation, etc.). Parmi ces algorithmes, nous présentons deux taches qui sont d'intérêt pour le projet AREN : le raffinement lexical et le calcul de termes-clés à partir d'un texte.</p>
<p>%%<br />
%% Bellérophon<br />
subsubsection*{hspace{parindent}Bellérophon : raffinement lexical}<br />
Bellérophonfootnote{{scriptsizeurl{https://www.jeuxdemots.org/intern_desamb.php}}} est un service fourni par la plate-forme JeuxDeMots, qui à partir d'une liste de termes, permet de sélectionner les sens probables des termes polysémiques de la liste. Par exemple, à partir de la liste qui suit :</p>
<p>egin{center}<br />
chat * souris * attraper<br />
end{center}</p>
<p>Nous obtenons le résultat d'activation des raffinements ci-dessous :<br />
egin{multicols}{2}<br />
egin{center}<br />
souris>rongeur / 595 \<br />
chat>mammifère / 582 \<br />
chat>mammifère>félin / 228 \<br />
attraper>capturer / 133 \<br />
chat>mammifère>mâle / 68 \<br />
ule{0.5linewidth}{1pt} \<br />
chat>marine>bâtiment de manutention / 0 \<br />
chat>marine>yacht / 0 \<br />
attraper>gronder / 0 \<br />
attraper>contracter / 0 \<br />
chat>soldat / 0 \<br />
ule{0.5linewidth}{1pt} \<br />
souris>naseau des chevaux / -2 \<br />
souris>couleur / -2 \<br />
souris>terme d'affection / -2 \<br />
souris>gigot / -3 \<br />
chat>enrouement / -5 \<br />
chat>palatine / -5 \<br />
chat>jeu / -8 \<br />
attraper>berner / -10 \<br />
souris>fille / -22 \<br />
attraper>prendre / -25 \<br />
chat>sexe de la femme / -27 \<br />
souris>papillon / -27 \<br />
chat>machine de siège / -30 \<br />
chat>artillerie / -30 \<br />
chat>marine / -35 \<br />
souris>informatique / -41 \<br />
souris>sourire / -52 \<br />
souris>poisson / -53 \<br />
chat>communication textuelle / -75 \<br />
chat>poisson / -115 \<br />
end{center}<br />
end{multicols}</p>
<p>Chaque raffinement est associé à une valeur numérique d'activation. Plus la valeur est élevée plus l'activation est forte, et à l'inverse une activation négative (inhibition) correspond à un rejet du raffinement. Un poids de 0 correspond sans doute à un manque dans la base de connaissances, qui est cependant interprété dans le contexte d'un mode clos comme un rejet.</p>
<p>Le principe de l'algorithme sous-jacent (dit de propagation de signal) est de diffuser un signal de façon répétée dans un sous-graphe du graphe JDM et d'identifier les termes qui s'activent fortement. <br />
En premier lieu, il s'agit de construire un sous-graphe de JDM réduit à la liste $L_T$ des termes de départ auxquels on a adjoint tous les raffinements existants (liste $L_R$) pour chaque élément de $L_T$. Ensuite, nous sélectionnons toutes les relations de JDM définies entre toutes les paires de termes de $L = L_T cup L_R$. Appelons le sous-graphe obtenu $G_B$ (B comme Bellérophon).</p>
<p>Nous rappelons qu'il est possible que certaines relations aient un poids négatif ce qui correspond à une impossibilité (par exemple : chat>palatine *r\_agent-1 attraper une souris). De part le mode de construction du réseau JDM, si une relation impliquant un raffinement est présente, la même relation appliquée aux co-raffinements sera questionnée (par exemple : frégate>oiseau r\_has\_part ailes et frégate>navire *r\_has\_part ailes) et est donc également présente avec possiblement un poids de signe différent.</p>
<p>Dans $G_B$, nous associons à chaque nœud une valeur d'activation $v$. L'algorithme est itératif et s'arrête lors de la convergence des activations des nœuds de $L_R$ (où à défaut quand un nombre d'itérations maximum est atteint, empiriquement 10 itérations suffisent largement).<br />
À chaque tour, chaque nœud de $L_T$ voit son activation $v$ fixée à une grandeur positive arbitraire (disons 1000 pour simplifier les idées). Cette activation est ensuite communiquée aux nœuds voisins selon les règles suivantes : <br />
medbreak<br />
Soit $N$ le nœud considéré et $N_1, N_2, ... N_k$ ses $k$ voisins reliés par $p$ relations $N t p N_i$ ($t$ est le type de la relation, $p$ son poids, positif ou négatif). <br />
medbreak<br />
egin{itemize}<br />
item Si $v(N) > 0$, l'activation de $N$ est propagée à ses voisins $N_i$, chacun au prorata $r(p)$ de $p$ (c'est-à-dire $p / Sigma lvert p_i
vert $) : $r(p) imes v(N)$. L'activation d'un nœud $N_i$ est augmentée de cette valeur : $v(N_p) leftarrow v(N_p) + r(p) imes v(N)$. Cette valeur peut être négative, et dans ce dernier cas, l'activation diminue et peut elle-même devenir négative - on parle alors d'inhibition.<br />
item Si $v(N) leq 0$, le nœud $N$ est dormant et n'influence pas l'activation de ses voisins.<br />
item A chaque tour les calcul d'activation des nœuds se fait en parallèle. <br />
end{itemize}<br />
%egin{addmargin}[3em]{2em}% 1em left, 2em right</p>
<p>%
oindent Si $v(N) > 0$, l'activation de $N$ est propagée à ses voisins $N_i$, chacun au prorata $r(p)$ de $p$ (c'est-à-dire $p / Sigma lvert p_i
vert $) : $r(p) imes v(N)$. L'activation d'un nœud $N_i$ est augmentée de cette valeur : $v(N_p) leftarrow v(N_p) + r(p) imes v(N)$. Cette valeur peut être négative, et dans ce dernier cas, l'activation diminue et peut elle-même devenir négative - on parle alors d'inhibition.</p>
<p>%
oindent Si $v(N) leq 0$, le nœud $N$ est dormant et n'influence pas l'activation de ses voisins.</p>
<p>%
oindent A chaque tour les calcul d'activation des nœuds se fait en parallèle. <br />
%end{addmargin}<br />
medbreak<br />
L'algorithme est prouvé non-convergent dans le cas général, mais en pratique il converge quasi-systématiquement en environ 4 tours en moyenne. Les valeurs d'activation de chaque nœud à l'issue du dernier tour constitue la réponse calculée. En général, on s'intéresse à l'activation des nœuds correspondant aux raffinements.<br />
L'utilisation de cet algorithme est utile pour effectuer une désambiguïsation lexicale holistique simple des termes d'un texte, mais peut également s'avérer intéressante pour détecter des informations (relations) manquantes dans le réseau.</p>
<p>%%<br />
%% IDEFIX<br />
subsubsection*{hspace{parindent}{small extit{IDÉFIX}} : extraction, association et abduction de termes}</p>
<p>{small extit{IDÉFIX}} est une sur-couche du réseau extit{JDM} fondée sur des réseaux de neurones permettant de sélectionner des concepts pertinents pour un texte fourni en entrée. Cette sélection se fait de manière abductive et locale au commentaire, par imitation des exemples déjà appris des interactions précédentes avec l'utilisateur (validation, invalidation et proposition de termes-clés). </p>
<p>Le service {small extit{IDÉFIX}} de la plate-forme JDM permet de calculer des termes pertinents à partir d'un texte. Par exemple, à partir du texte qui suit :<br />
medbreak<br />
og extit{Ensuite, les monnaies locales permettent à une communauté d'utiliser pleinement ses ressources productives existantes, tout spécialement la force de travail inemployée, ce qui a un effet catalytique sur le reste de l'économie locale. Elles sont fondées sur le postulat que la communauté n'utilise pas pleinement ses capacités de production, par manque de pouvoir d'achat local. La monnaie alternative est utilisée pour augmenter la demande, d'où une plus grande exploitation des ressources productives.} (Wikipédia Monnaie locale) fg <br />
medbreak<br />
oindent Nous obtenons les termes suivants :</p>
<p>egin{addmargin}[3em]{2em}% 1em left, 2em right<br />
extit{monnaies locales * ressources productives * capacités de production • économie * exploitation des ressources productives * force de travail inemployée • monnaie citoyenne * économie locale * pouvoir d'achat local * monnaie complémentaire}<br />
end{addmargin}<br />
medbreak<br />
Pour aboutir à son résultat, {small extit{IDÉFIX}} calcule et combine trois ensembles de termes pondérés.<br />
medbreak<br />
Le premier ensemble, les extit{termes extraits}, est l'extraction directe des termes du texte avec lemmatisation et identification des termes composés.<br />
Dans l'exemple précédent, nous obtenons (sans les pondérations) : <br />
medbreak<br />
egin{addmargin}[3em]{2em}% 1em left, 2em right<br />
{small extit{Ensuite * ensuite * monnaies locales * monnaie locale * permettre de * permettre à * communauté * pleinement * ressources existantes * productif * existant * spécialement * travail de la force * force de travail inemployée * inemployé * effet catalytique * l'économie locale * reste * être fondé sur * fondées * postulat * ne pas utiliser * ses capacités * capacité de production * capacités de production * par manque * manque de pouvoir d'achat * pouvoir d'achat local * achat local * monnaie alternative * utilisé * pour augmenter * être utilisée * demande * d'exploitation * exploitation des ressources productives * économie locale * monnaie * permettre * utiliser * ressources * ressources productives * travail * effet * production * augmenter * exploitation des ressources * économie}}<br />
end{addmargin}<br />
medbreak</p>
<p>Ce premier ensemble de termes extraits est l'objet d'une désambiguïsation lexicale via le service Bellérophon. Les sens sélectionnés pour les termes polysémiques sont ajoutés à cet ensemble.<br />
medbreak</p>
<p>Le second ensemble, les extit{termes associés} est l'ensemble de toutes les associations (relation exttt{r\_associated} dans JDM) liées positivement aux extit{termes extraits}.<br />
Dans l'exemple précèdent, nous obtenons : <br />
medbreak<br />
egin{addmargin}[3em]{2em}% 1em left, 2em right<br />
{small extit{monnaie complémentaire | 10 * économie locale | 5.775 * économie | 4.687 * monnaie citoyenne | 3.164 * économie>activité économique | 1.281 * stimulation de l'économie | 0.765 * monnaie locale | 0.52 * production | 0.482 * exploitation des ressources présentes sur la Lune | 0.455 * travail à mi-temps | 0.451 * argent | 0.237 * agriculture locale | 0.17 * pouvoir d'achat en baisse | 0.17 * local>propre à un lieu | 0.149 * monnaie | 0.146 * monnaie virtuelle | 0.144 * être sur l'os | 0.14 * économie clandestine | 0.128 * matières premières | 0.126 * quantité de biens | 0.09 * consommation>économie | 0.09 * augmenter les bénéfices | 0.085 * manque d'emploi | 0.085 * possibilités offertes par qqch | 0.079 * produits d'un pays | 0.079 * possibilités d'actions de quelqu'un | 0.079 * produits régionaux | 0.057 }}<br />
end{addmargin}</p>
<p>On remarquera que certains termes ont un point très faible, et qu'il convient de seuiller la réponse finale.<br />
medbreak</p>
<p>Le troisième ensemble, les extit{termes activés}, correspond aux activations de sortie dans un réseau neuronal construit dans JDM avec comme points d'entrée les extit{termes extraits}. Il s'agit d'un réseau neuronal discret (RND) qui associe à un ensemble de termes d'entrée un ensemble de termes de sortie (contrairement au réseau JDM qui associent des paires de termes). L'élément de base est un "neurone" qui est un nœud faisant la "glue" entre les deux ensembles (voir figure
ef{figure:RNidefix}). Ce RDN est qualifié de discret car aucun plongement lexical n'est présent.</p>
<p>medbreak<br />
egin{figure}[!ht]<br />
egin{center}<br />
includegraphics[width=0.9 extwidth]{RNIdefix.jpg}<br />
caption{Illustration du réseau neuronal discret (RDN) de JDM utilisé par Idéfix. Chaque neurone connecte un ensemble de termes + neurones d'entrée à un ensemble de termes + neurones de sortie. }<br />
label{figure:RNidefix}<br />
end{center}<br />
end{figure} <br />
Le fonctionnement du RDN est similaire au mécanisme expliqué ci-dessus pour Bellérophon a quelque différences près :</p>
<p>egin{itemize}<br />
item Les neurones ne s'activent que de façon probabiliste en fonction de leur niveau d'activation et du nombre d'entrées activées (au moins la moitié) ;<br />
item Les nœuds de sorties activés constituent la réponse calculée ;<br />
item Tout nœud de sortie peut être un nœud d'entrée d'un neurone ;<br />
item Le calcul se réalise en une seule passe (aucune itération) ;<br />
item Seules les parties du RDN connectées aux entrées activées sont concernées par le calcul, qui est donc strictement localiste malgré la taille conséquente du RDN.<br />
end{itemize}<br />
medbreak</p>
<p>Au 1er Janvier 2024, le RND de JDM contient plus de $650 000$ neurones (qui sont des nœuds particuliers du graphe de JDM) et environ $70$ millions de connexions (qui sont des relations particulières du graphe de JDM). L'apprentissage est réalisé de façon constante à partir des articles de Wikipédia. Pour chaque paragraphe d'un article, les termes extraits (au sens de la procédure évoquée ci-dessus) sont les termes d'entrée. Les termes de sortie sont (la ou) les vedettes de l'article Wikipédia ainsi que les termes qui sont des liens hypertextuels dans le paragraphe concerné.<br />
medbreak<br />
oindent Dans l'exemple précèdent, nous obtenons après seuillage : <br />
medbreak<br />
egin{addmargin}[3em]{2em}% 1em left, 2em right<br />
{small extit{ <br />
ressources productives<br />
• capacités de production<br />
• économie<br />
• exploitation des ressources productives<br />
• inemployée<br />
• monnaie citoyenne<br />
• pouvoir d'achat local<br />
• économie locale<br />
• force de travail<br />
• monnaies locales<br />
• force de travail inemployée <br />
}}<br />
end{addmargin}<br />
medbreak</p>
<p>Le RND permet de calculer des termes pertinents par abduction (imitation par l'exemple) non-linéaire à partir de ce qui a déjà été appris (c'est-à-dire des exemples déjà connus qui sont dans le RND). Les extit{termes associés}, eux, sont ceux qui sont sémantiquement reliés dans JDM avec un effet d'émergence linaire.<br />
medbreak</p>
<p>La combinaisons des trois ensembles de termes (extraits, associés, activés), une fois les poids normés, se fait de manière linéaire dans la proportion 1/5, 2/5 et 3/5. Il est tout à fait possible que la liste des termes activés soit vide, si aucun neurone n'a été pu se déclencher. Cela arrive quand des sujets nouveaux sont abordés, et la liste des termes associés fait donc office de filet de sécurité (mais parfois avec des risques de confusion surtout concernant des éléments textuels à la sémantique implicite).<br />
medbreak</p>
<p>Ainsi {small extit{IDÉFIX}} est le service sollicité pour calculer les termes et concepts supposément pertinents d'une contribution à un débat faite sur la plate-forme AREN. C'est ce résultat qui va être l'objet d'un traitement d'enrichissement.</p>
<p>%%<br />
%% <br />
%% Enrichissement sémantique<br />
%%<br />
%%<br />
subsection{Enrichissement sémantique}label{AugmentationSémantique}<br />
Afin d'assurer une représentativité des propos des utilisateurs, nous procédons à l'enrichissement des ensembles de mots-clés produits à l'étape précédente (c.f. Algorithme~
ef{alg:augmentation}). Nous cherchons, en premier lieu, à assurer une couverture sémantique suffisante en nous occupant des éventuels phénomènes d'ambiguïté lexicale footnote{Ambiguïté traitée via le service extit{Bellérophon}} et engendrées par la polysémie des termes-clés (c.f. Figure~
ef{fig:enrichissement}).<br />
medbreak</p>
<p><br />
egin{figure}[!h]<br />
centering<br />
egin{tabular}{p{13cm}}<br />
hlinehline<br />
extbf{Commentaire :} extit{la monnaie locale est un outil financier.}\<br />
hline<br />
extbf{Indexation : } <br />
{small outil conceptuel extbf{;} être utile extbf{;} outil>moyen d'action extbf{;} MLC extbf{;} économie locale extbf{;} moyen d'action extbf{;} monnaie locale extbf{;} crise commerciale extbf{;} monnaie locale complémentaire et citoyenne extbf{;} outil extbf{;} financier extbf{;} Sol-violette extbf{;} économie extbf{;} monnaie locale complémentaire extbf{;} monnaie extbf{;} outil financier extbf{;} local}\<br />
hline<br />
extbf{Désambiguïsation de l'indexation : }<br />
{small outil>moyen d'action extbf{;} monnaie>argent extbf{;} économie>activité économique extbf{;} financier>finance extbf{;} MLC>monnaie locale complémentaire extbf{;} monnaie>unité monétaire extbf{;} local>propre à un lieu }\<br />
hline<br />
% extbf{Raffinement sémantique du mot-clé "financier"} \<br />
% financier (homme d'affaires) ; financier (finance) ; financier (gâteau) ; financier (théâtre)\<br />
% hline<br />
extbf{Augmentation sémantique - synonymes :} <br />
{small régional (depuis local>propre à un lieu) extbf{;} sous>argent (depuis monnaie>argent)}\<br />
hline<br />
end{tabular}<br />
caption{label{fig:enrichissement} Exemple de désambiguïsation et d'augmentation sémantique d'indexation d'un propos d'un débat sur les monnaies locales. L'ajout du synonyme extit{régional} n'est autorisé que parce qu'il est présent ailleurs dans le débat (dans le cas de l'augmentation avec restriction).}<br />
%https://portail-aren.lirmm.fr/aren2023/debates/6<br />
end{figure}<br />
medbreak<br />
La désambiguïsation lexicale revient à extit{séparer les termes semblables en apparence, mais dont les sens sont différents}, en identifiant les raffinements sémantiques adéquats dans le réseau extit{JDM}. Les raffinements sémantiques d'un terme sont tous ses extit{homographes}, pour lesquels on identifie dans le réseau un ensemble de relations sémantiques divergeant de celui du terme à og extit{raffiner} fg. L'identification du extit{bon} raffinement sémantique dans JeuxDeMots a pour objectif de considérer, dans la suite de l'algorithme, le sous-graphe incluant l'homonyme, au sens spécifique dans lequel il est utilisé dans le texte. </p>
<p>L'enrichissement des termes de description par leurs termes synonymes ou hyperonymes pertinents, permet, à l'inverse de la désambiguïsation, de extit{regrouper les termes différents en apparence, dont les sens sont (quasi-)semblables}. </p>
<p>L'intérêt de cet enrichissement est d'identifier, indépendamment des diverses variantes lexicales, les occurrences d'un sens donné, ce afin d'éviter un éparpillement des éléments de sens (relations sémantiques) pris en compte par l'algorithme, pour un terme donné.</p>
<p>Dans la suite de la présentation, nous considérerons deux manières distinctes d'effectuer cette étape d'enrichissement. L'ajout d'un synonyme/hyperonyme dans les termes-clés d'un propos peut être réalisé sans ou avec une restriction aux termes du débat. Se restreindre aux termes-clés du débat signifie qu'un terme synonyme ou hyperonyme n'est ajouté à la liste des termes-clés (résultant de l'indexation) que s'il indexe un autre propos (uniquement, s'il existe déjà comme terme-clé d'un autre propos du débat), ceci afin d'éviter une dérive liée à des cas de synonymie foisonnante.<br />
medbreak <br />
egin{algorithm}[h]<br />
caption{Augmentation des mots-clés}label{alg:augmentation}<br />
egin{algorithmic}<br />
Require $mathcal E, ext{JDM}, S|H$ vspace{-5mm}egin{FlushRight}Comment{listes de termes d'indexation des arguments,\ base de connaissances, synonymes | hyperonymes}end{FlushRight}<br />
Ensure $mathcal E'$ Comment{listes d'indexation des arguments après l'enrichissement sémantique}<br />
State $mathcal E' gets emptyset$<br />
For {$I in mathcal E$}<br />
State $I' gets I$<br />
State $mathcal R_{I} = Bellerophon(I, ext{JDM})$ vspace{-5mm}egin{FlushRight}Comment{calculer le raffinement lexical de chaque liste de\ termes $I$ avec le service extit{Bellérophon}}end{FlushRight}<br />
For {$i in I$}<br />
If{$is\_polysemy(i)$} vspace{-5mm}egin{FlushRight}Comment{si le terme $i$ est polysémique l'augmentation\est faite à partir de sa désambiguïsation lexicale}end{FlushRight}<br />
If{$i in R_{I}$}<br />
State $desamb_{i} = get\_desamb(i,mathcal R_{I})$ vspace{-5mm}egin{FlushRight}Comment{get\_desamb retourne les \raffinements de $i$ à partir de $R_{I}$}end{FlushRight}<br />
State $aug_{i} = augmente(desamb_{i}, ext{JDM},S|H)$ vspace{-5mm}egin{FlushRight}Comment{augmente retourne les \ synonymes ou hyperonymes \d'un terme donné}end{FlushRight}<br />
EndIf<br />
Else<br />
State $aug_{i} = augmente(i, ext{JDM},S|H)$ <br />
EndIf<br />
State $I' gets I' cup aug_{i}$<br />
EndFor<br />
State $mathcal E' gets mathcal E' cup I'$<br />
EndFor<br />
State Return $mathcal E'$<br />
end{algorithmic}<br />
end{algorithm}</p>
<p>% egin{algorithm}<br />
% caption{Raffinement lexical}label{alg:raffinement}<br />
% egin{algorithmic}<br />
% Require $mathcal I,mathcal JDM$ Comment{liste de termes d'indexation $mathcal I$ et graphe orientée $mathcal JDM$}<br />
% Ensure $mathcal R$ Comment{ensemble de raffinements de $mathcal I$}<br />
% For {$i in mathcal I$}<br />
% EndFor<br />
% State Return $mathcal R$<br />
% end{algorithmic}<br />
% end{algorithm}</p>
<p>subsection{Extraction de connaissances}label{ExtractionConnaissances}<br />
L'extraction de connaissances à partir de l'indexation des commentaires utilise l'AFC, un cadre mathématique basé sur la théorie des treillis permettant la représentation de l'information contenue dans des données sous des formes algébriques ou logiques citep{Ganter:2012}. <br />
subsubsection{Contexte formel et fermeture de Galois}<br />
L'AFC part de données sous la forme d'un extit{contexte formel}; un triplet $(mathcal O,mathcal A,mathcal R)$ où $mathcal Rsubseteq mathcal O imes mathcal A$ est une relation binaire entre des emph{objets} $O$ et les emph{attributs} $A$ qui les décrivent. Cette relation peut être représentée sous la forme d'un tableau de croix (c.f. Figure~
ef{fig:context}).<br />
medbreak<br />
Dans AREN, les objets sont les commentaires du débat et les attributs sont les mots-clés (ou les termes) proposés par les débattants ou ajoutés lors de la phase d'indexation. \Un terme est en relation avec un commentaire s'il l'indexe. <br />
Par exemple, dans l'exemple de la Figure~
ef{fig:context}, $(c_4, monnaie>argent)in mathcal R$ signifie que l'objet extit{$c_4$ = la loi donne une existence légale aux monnaies locales} est indexé par le terme $monnaie>argent$.</p>
<p>egin{figure}[!h]<br />
centering<br />
esizebox{ extwidth}{!}{<br />
egin{tabular}{cccccc}<br />
& small$organisation$ & small$monnaie>argent$ & small$cours~lacute egal$ & small$monnaie~complacute ementaire$ & small$monnaie~locale$ \<br />
hline<br />
$c_1$ & $ imes$ & & $ imes$ & & \<br />
$c_2$ & & & $ imes$ & $ imes$ & $ imes$ \<br />
$c_3$ & & $ imes$ & & & $ imes$ \<br />
$c_4$ & & $ imes$ & $ imes$ & $ imes$ & $ imes$ \<br />
end{tabular}}<br />
caption{label{fig:context}Exemple de contexte formel avec une relation binaire entre quatre commentaires ($c_i$) : $c_1$ = « la monnaie est une manière de faire et d'organiser la société » ; $c_2$ = « L'acceptation dans le cadre de la loi rend la monnaie locale légale » ; $c_3$ = « les monnaies locales nous font nous questionner sur un outil que nous banalisons la monnaie » ; $c_4$ = « la loi donne une existence légale aux monnaies locales » et cinq termes ($t_j$) : « organisation » ; « monnaie>argent » ; « cours légal » ; « monnaie complémentaire » ; « monnaie locale ».}<br />
end{figure}<br />
medbreak<br />
Un contexte formel donne lieu à deux emph{opérateurs de dérivation}, tous deux notés $cdot '$ et définis tels que<br />
$$cdot': 2^{mathcal A}mapsto 2^{mathcal O}$$<br />
$$A' = {oin mathcal O | forall ain A, (o,a)in mathcal R}$$<br />
$$cdot': 2^{mathcal O}mapsto 2^{mathcal A}$$<br />
$$O' = {ain mathcal A | forall oin O, (o,a)in mathcal R}$$<br />
Les compositions $cdot ''$ de ces opérateurs forment des opérateurs de fermeture. <br />
Par exemple, dans la Figure~
ef{fig:context}, la fermeture de $monnaie>argent$ est ${monnaie>argent, monnaie locale}$.</p>
<p>subsubsection{Génération des irréductibles}<br />
Un contexte formel est dit emph{clarifié} s'il n'a pas deux objets ayant exactement la même description ou deux attributs décrivant exactement les mêmes objets. Dans un contexte clarifié, un attribut $a$ est dit emph{irréductible} si l'ensemble ${a}'$ des objets qu'il décrit n'est pas égal à l'intersection des ensembles d'objets décrits par d'autres attributs citep{Liquiere:2021}, c'est-à-dire qu'il n'existe pas d'ensemble d'attributs $X$ tel que ${a}' = igcap_{xin X} = {x}'$ (c.f. Algorithme~
ef{alg:irreductibles}).</p>
<p>Dans l'exemple de la Figure~
ef{fig:context}, seul l'attribut $monnaie complacute ementaire$ n'est pas irréductible puisque ${monnaie complacute ementaire}' = {cours lacute egal}'cap {monnaie locale}'$. Le reste des termes, à savoir $organisation$, $monnaie>argent$, $cours lacute egal$ et $monnaie locale$, sont tous des irréductibles.</p>
<p><br />
egin{algorithm}<br />
caption{Calcul des irréductibles}label{alg:irreductibles}<br />
egin{algorithmic}<br />
Require $a,(mathcal O,mathcal A,mathcal R)$ Comment{attribut $a$ et contexte formel}<br />
Ensure $mathcal O_{t}$<br />
State $F(a) gets fermeture(a,(mathcal O,mathcal A,mathcal R))$ Comment{calculer $mathcal A(mathcal O(a))$}<br />
State $mathcal O_{t} gets mathcal O - mathcal O(a)$<br />
For {$a_{i} in F(a)$}{<br />
If {$mathcal O_{t}
e emptyset$}State Return $mathcal O_{t}$<br />
EndIf<br />
If {$|mathcal O(a_{i})|
e |mathcal O(a)|$}State Return $mathcal O_{t} gets mathcal O_{t} cap mathcal O(a_{i})$<br />
Else State $fusion(a_{i})$<br />
EndIf<br />
}EndFor<br />
State Return $mathcal O_{t}$<br />
end{algorithmic}<br />
end{algorithm}</p>
<p>subsubsection{Extraction des implications}<br />
Nous cherchons à extraire des régularités dans la cooccurence des mots-clés dans l'indexation des commentaires. L'AFC offre différentes possibilités de représentation de ces régularités : implications, règles d'association, treillis de concepts ou relations causales citep{Bazin:2022}. Une implication est une règle constituée d'une paire d'ensembles d'attributs $A$ et $B$, habituellement notée $A
ightarrow B$. <br />
medbreak<br />
Une implication est dite emph{valide} dans un contexte formel donné si et seulement si tous les objets décrits par les attributs de $A$ sont aussi décrits par les attributs de $B$, c'est-à-dire $Bsubseteq A''$ (c.f. Algorithme~
ef{alg:precis}).</p>
<p>Ainsi, dans l'exemple de la Figure~
ef{fig:context}, les deux implications ${cours lacute egal, monnaie locale}
ightarrow {monnaie complacute ementaire}$ et ${organisation}
ightarrow {cours lacute egal}$ sont valides tandis que ${cours lacute egal}
ightarrow {organisation}$ ne l'est pas. Afin de réduire le nombre de règles à présenter aux débattants, notre attention se focalise spécifiquement sur les implications de la forme ${a}
ightarrow B$ telles que $a$ est un terme irréductible. </p>
<p>egin{algorithm}<br />
caption{Génération des implications}label{alg:precis}<br />
egin{algorithmic}<br />
Require $I,(mathcal O,mathcal A,mathcal R)$ Comment{ensemble d'irréductibles $I$ et contexte formel}<br />
Ensure $mathcal P$ Comment{ensemble d'implications $mathcal P$}<br />
State $mathcal P gets emptyset$<br />
For{$i in I$}<br />
State $F(i) gets fermeture(i,(mathcal O,mathcal A,mathcal R))$ Comment{calculer $mathcal A(mathcal O(i))$} <br />
State $p gets i Rightarrow F(i)$<br />
State $mathcal P gets mathcal P cup p$<br />
EndFor<br />
State Return $mathcal P$<br />
end{algorithmic}<br />
end{algorithm}</p>
<p>subsection{Enrichissement de la base de connaissance}label{majJDM}<br />
Les implications obtenues avec l'AFC sont utilisées pour mettre à jour les relations dans la base de connaissances exploitée lors de ce processus. Donc, depuis une implication de la forme ${a}
ightarrow {b,c, d, e, ...}$ nous ajoutons dans la base de connaissances des relations $a
ightarrow extbf{x} avec extbf{x} in {b,c, d, e, ...}$. <br />
medbreak<br />
Dans l'exemple de la Figure~
ef{fig:context}, la mise à jour de la base de connaissances extit{JDM} se fait par l'ajout de l'association des termes extit{« cours légal »} et extit{« organisation »} et celle de extit{« monnaie locale »} et extit{« monnaie>argent »}. Ces modifications améliorent globalement la composante associative des calculs ultérieurs des indexations des propos.</p>
<p>section{Mesures d'évaluation des règles}label{MesuresEal}<br />
%Il est vrai que les mesures de fiabilité sont fondamentales pour l'extraction de règles satisfaisantes (par leur capacité à bien couvrir le contexte d'extraction initial). <br />
%Cependant, se concentrer uniquement sur des règles ayant une confiance et un support élevés tout en négligeant d'autres aspects cruciaux pouvant représenter le contexte, rend difficile l'utilisation de ces règles par d'autres systèmes visant à produire des résultats satisfaisants.</p>
<p>Afin d'étudier l'impact de l'augmentation sémantique sur la qualité des règles, nous avons utilisé diverses métriques, notamment le support, la nouveauté et la surprise (fondée sur la co-occurrence ou le voisinage des termes). </p>
<p>subsection{Support}<br />
Le support peut-être perçu comme un indicateur de « confiance statistique » d'une règle. Le support d'un ensemble d'attributs ou termes $T$ est le nombre d'objets (ou de commentaires) décrits par $T$ divisé par le nombre total d'objets. Il peut être défini par l'Equation~
ef{SuppEq}.</p>
<p>egin{equation}label{SuppEq}<br />
Supp(r) = p(T_r^p ~~ T_r^c) / |C|<br />
end{equation}</p>
<p>
oindent où $T_r^p$ et $T_r^c$ sont respectivement les termes de la prémisse et de la conclusion de la règle r et $C$ sont les commentaires.</p>
<p>subsection{Nouveauté}<br />
La nouveauté est une métrique qui a été utilisée dans les domaines de découverte de sous-groupes et de découverte de clauses citep{Wrobel:1997}. Une règle est considérée nouvelle si sa prémisse et sa conclusion ne sont pas statistiquement indépendantes citep{Lavrac:1999}. <br />
medbreak<br />
oindent La nouveauté d'une règle est définie par l'Equation~
ef{NovEq}.<br />
egin{equation}label{NovEq}<br />
Nov(r) = p(T_r^p ~~ T_r^c) - p(T_r^p)~~p(T_r^c)<br />
end{equation}</p>
<p>
oindent où $r$ est une règle (implication), $T_r^p$ et $T_r^c$ sont respectivement les termes de la prémisse et de la conclusion de la règle r.</p>
<p>%Un score positif indique que le support observé de la règle r est plus élevé que prévu par hasard. Cela suggère que l'association entre $T_r^p$ et $T_r^c$ est plus forte que ce à quoi on pourrait s'attendre sur la base du hasard. Cependant, un score négatif...</p>
<p>%limite: Notons que cette mesure est symétrique, ce qui signifie que $T_r^p
ightarrow T_r^c$ et $T_r^c
ightarrow T_r^p$ porteront toujours la même nouveauté, même si l'un d'eux peut avoir plus de contre-instances (satisfaisant la conclusion mais falsifiant la prémisse) que l'autre.</p>
<p>subsection{Surprise}</p>
<p>Bien que la pertinence peut être facilement évaluée à l'aide du support, la mesure de la surprise (ou de l'inattendu) des règles est une tâche complexe qui nécessite souvent des études coûteuses à mener, impliquant des utilisateurs (ou des ressources externes, dans notre cas). Une règle nouvelle peut être rétrospectivement surprenante ou non, dans le sens où la connaissance disponible ne permet pas de l'expliquer rapidement/facilement. </p>
<p>Dans ce travail, nous ajustons deux définitions de la mesure de surprise utilisées dans le domaine de recommandation citep{Kaminskas:2014}, l'une basée sur le degré d'association sémantique entre les termes indexant les propos du débat et l'autre basée sur les termes associés aux termes d'indexation. Les deux mesures produisent un score qui indique le niveau de surprise que le terme cible a apporté à la règle.</p>
<p>subsubsection{Surprise basée sur la co-occurrence des termes}</p>
<p>L'information mutuelle spécifique (Point-wise Mutual Information notée PMI) indique à quel point deux termes sont statistiquement dépendants, en fonction du nombre de propos indexés par les deux termes et chaque terme séparément (c.f. Equation~
ef{PMIsEq}). \<br />
Les valeurs de PMI varient entre $-1$ et $1$, où $-1$ signifie que les deux termes ne sont jamais utilisés ensemble pour indexer un propos, $0$ signifie l'indépendance des termes et $1$ signifie une co-occurrence systématique des termes.</p>
<p>egin{equation}label{PMIsEq}<br />
PMI(i,j) = log_{2}frac{p(i,j)}{p(i)p(j)} ~~/~~ -log_{2}~~p(i,j)<br />
end{equation}</p>
<p>
oindent où $p(i)$ et $p(j)$ représentent respectivement les probabilités qu'un propos soit indexé par les termes $i$ et $j$,<br />
tandis que $p(i,j)$ est la probabilité qu'un propos soit indexé par les deux termes $i$ et $j$.<br />
medbreak<br />
Sur la base de la PMI, la mesure de surprise d'un terme $i$ pour la règle $r$ est définie comme la valeur moyenne de PMI des termes dans la règle (c.f. Equation~
ef{surpriseOccEq}).<br />
%%Il est a noter qu'une valeur élevée de $Surprise_{co-occ}^{avg}$ signifie une surprise élevée.</p>
<p><br />
egin{equation}label{surpriseOccEq}<br />
Surprise_{co-occ}^{avg}(i,r)= 1 - frac{1}{|T_{r}|} sum_{j in T_{r}} PMI(i,j)<br />
end{equation}</p>
<p>
oindent où $i$ est un terme, $r$ est une règle (implication) et $T_{r}$ sont les termes de la règle r.</p>
<p>medbreak</p>
<p>%<br />
%limite: Nous notons que la définition de la métrique de surprise basée sur la co-occurrence peut être sensible aux termes rares, car on sait que la mesure de PMI est biaisée en faveur des paires de termes rares.</p>
<p>La surprise basée sur la co-occurrence permet de tenir compte du contexte local du débat et des rapprochements de termes que celui-ci peut engendrer. Toutefois, l'indépendance statistique n'implique pas une similarité sémantique faible. En effet, deux contributeurs peuvent respectivement préférer utiliser le terme og extit{vélo} fg et og extit{bicyclette} fg. Ces deux termes sont alors, dans le débat, en co-occurrence nulle ou faible, alors qu'ils sont sémantiquement très proches. La surprise basée sur le contenu sémantique des termes (leur voisinage, c.f. Section~
ef{voisin}) permet de tenir compte de ce type de phénomènes.</p>
<p>subsubsection{Surprise basée sur le voisinage des termes}label{voisin}<br />
Notre deuxième mesure de surprise est basée sur la distance appliquée aux termes associés aux termes cibles. Le voisinage d'un terme $t$ dans la base de connaissances JDM est l'ensemble des termes auquel $t$ est relié par la relation d'association d'idées. <br />
Nous avons utilisé le complément de la métrique de similarité de Jaccard pour comparer les termes (c.f. Equation~
ef{distanceEq}).<br />
medbreak</p>
<p><br />
egin{equation}label{distanceEq}<br />
dist(i,j)= 1 - frac{A_{i} cap A_{j}}{A_{i} cup A_{j}}<br />
end{equation}</p>
<p>
oindent où $A_{i}$ et $A_{j}$ sont respectivement les ensembles de termes associés aux termes $i$ et $j$. Dans le cas où le terme $A$ est polysémique, on considère sa désambiguïsation lexicale pour extraire les termes qui sont associés au contexte des règles. \<br />
Par exemple, sont associés au terme og extit{monnaie} fg de façon non-exhaustive les termes : og extit{argent, pièce, billet, euro, devise} fg, le terme og extit{fric} fg aura comme termes associées : og extit{argent, pièce, billet, euro, thune} fg. La distance entre ces deux termes est de $1 - 4/6 = 1/3$.<br />
medbreak<br />
Pour mesurer la surprise d'un terme, nous calculons la distance moyenne entre le terme cible $i$ et les autres termes $T_{r}$ de la règle $r$ comme indiqué dans l'équation~
ef{surpriseContentEq}.<br />
%Une surprise est considérée plus grande lorsque la valeur de $Surprise_{vois}^{avg}$ est élevée.</p>
<p>egin{equation}label{surpriseContentEq}<br />
Surprise_{vois}^{avg}(i,r)= frac{1}{|T_{r}|} sum_{j in T_{r}} dist(i,j)<br />
end{equation}</p>
<p>
oindent où $i$ est un terme, $r$ une règle (implication) et $T_{r}$ sont les termes de la règle $r$.</p>
<p>%</p>
<p>%limite: Nous notons que la métrique basée sur le contenu est sensible à la qualité des termes associés aux termes d'indéxation de base pouvant mal refléter la différences entre ces derniers.</p>
<p>%Dans ce travail, pour les deux variantes de la mesure de surprise, on distingue entre la surprise intra-règles qui mesure le niveau de surprise entre les termes de la conclusion des règles et la surprise inter-règles qui mesure la surprise entre les termes des prémisses et conclusions des règles. </p>
<p>section{Résultats et discussions}label{resultats}<br />
Afin d'aider à l'interprétation des résultats de l'algorithme, nous commençons dans cette section par présenter les données ayant servi à cette évaluation. Nous cherchons ensuite à mettre en évidence la pertinence de chaque module employé, ceci en mettant en place des configurations contrastives de l'algorithme rendant possible la comparaison des résultats permis par chaque sous-module. <br />
subsection{Jeux de données et configurations}<br />
Nous procédons à l'évaluation de notre approche à l'aide des données issues d'un débat sur la plate-forme AREN concernant les monnaies localesfootnote{ scriptsizeurl{https://portail-aren.lirmm.fr/aren2023/debates/6}} intitulé « Les monnaies locales sont-elles un outil pour sauver l'économie locale et dans quelles conditions? ». Les principales caractéristiques de notre jeu de données sont présentées dans le Tableau~
ef{tab:debat}. </p>
<p>egin{table}[ht]<br />
egin{center}<br />
abcolsep = 2 abcolsep<br />
egin{tabular}{cccc}<br />
hlinehline<br />
Débattants & Arguments & Mots-clés & Période\<br />
hline<br />
8 & 48 & 464 & Mars 2020 -- Mai 2023\<br />
hline<br />
end{tabular}<br />
caption{Statistiques du débat sur les monnaies locales.} label{tab:debat}<br />
end{center}<br />
end{table}<br />
Chaque argument d'un débattant est associé à un texte initial du débat et décrit par une reformulation, une phrase qui reflète sa compréhension du texte argumenté ( extit{« La monnaie locale est un outil financier »} : Figure~
ef{fig:enrichissement}), et une opinion ($83.33\%$ des arguments sont og extit{plutôt d'accord} fg~ et $16.67\%$ ne sont og extit{plutôt pas d'accord} fg). En total, $464$ mots-clés distincts ont été utilisés pour indexer les reformulations dont $125$ termes uniques sont proposés par les utilisateurs et $339$ par {small extit{IDÉFIX}}. En moyenne, chaque débattant a utilisé $5.39$ termes par argument. <br />
medbreak</p>
<p>Nous comparons les résultats de trois variantes de notre approche pour mesurer l'effet de l'augmentation sémantique sur la qualité des résultats de l'AFC. Les détails de nos méthodes sont énumérés ci-dessous: <br />
medbreak<br />
egin{itemize}<br />
item $KT$ : Les implications sont calculées à partir du contexte d'extraction initial, défini par la relation binaire entre les reformulations des débattants et les termes-clés qui les indexent. <br />
item $KT^{dagger}$ : Le contexte d'extraction est enrichi par les synonymes des termes qui définissent les attributs pour générer les implications. On s'intéresse aux termes synonymes qui sont déjà utilisés lors de l'indexation initiale ($R^{ullet}$) et aussi ceux qui ne le sont pas ($R^{circ}$), donc, de nouveaux termes n'apparaissant pas dans le débat.<br />
item $KT^{ddagger}$ : Identique à la configuration précédente avec des hyperonymes au lieu de synonymes.<br />
end{itemize}</p>
<p><br />
subsection{Résultats} <br />
Nous commençons par proposer une vue quantitative des résultats des différentes configurations. Nous rapportons, dans le Tableau~
ef{tab:implications}, le nombre d' extit{attributs}, extit{irréductibles} et extit{implications} dans les configurations se limitant, ou pas, aux termes-clés du débat. <br />
medbreak<br />
egin{table}[ht]<br />
egin{center}<br />
abcolsep = 2 abcolsep<br />
egin{tabular}{lccccc}<br />
hlinehline<br />
& $KT$ & multicolumn{2}{c}{$KT^{dagger}$} & multicolumn{2}{c}{$KT^{ddagger}$} \<br />
hline<br />
&& $DL^{circ}$ & $DL^{ullet}$ & $DL^{circ}$ & $DL^{ullet}$ \<br />
hline<br />
multicolumn{6}{l}{ extit{ extbf{Avec restriction aux termes-clés du débat}}}\<br />
hline<br />
Attributs & 464 & 464 & 464 & 464 & 464 \<br />
Irréductibles & 70 & 73 & 68 & 83 & 79 \<br />
Implications & 43 & 54 & 46 & 75 & 71 \<br />
hline<br />
multicolumn{6}{l}{ extit{ extbf{Sans restriction aux termes-clés du débat}}}\<br />
hline<br />
Attributs & 464 & 3831 & 2240 & 1125 & 866 \<br />
Irréductibles & 70 & 161 & 85 & 121 & 103 \<br />
Implications & 43 & 114 & 50 & 106 & 88 \<br />
hline<br />
hline<br />
end{tabular}<br />
caption{Résultats de KT (KeepTalk) avec et sans restriction aux termes-clés du débat : Le nombre d'objets demeure constant pour toutes les configurations et est égal à $48$. $DL^{circ}$/$DL^{ullet}$ désignent l'utilisation ou non de la tâche de désambiguïsation lexicale.} label{tab:implications}<br />
end{center}<br />
end{table}</p>
<p>Quand l'ajout de termes n'est pas restreint à ceux du débat, nous observons une augmentation du nombre d'attributs. Inversement, si on se restreint aux termes du débat, le nombre d'attributs est constant.<br />
Dans tous les cas, l'utilisation de la désambiguïsation lexicale réduit le nombre d'objets produits (irréductibles et implications), ceci est conforme à l'intuition car la désambiguïsation réduit l'éparpillement lexical. Par ailleurs, l'ajout d'hyperonymes est plus productif que l'ajout de synonymes, car il est possible de trouver au moins un hyperonyme pour la quasi-totalité des attributs (qui sont des termes), ceci est beaucoup moins vrai pour les synonymes.</p>
<p>medbreak</p>
<p>La première expérimentation rapporte la proportion des relations d'association qui sont considérées comme correctes/pertinentes. Ces associations sont générées à partir des règles produites (implications). Cette étape consiste en une évaluation menée manuellement par 4 intervenants adoptant le rôle og d'experts fg.</p>
<p>egin{table}[!h]<br />
centering<br />
egin{tabular}{ccc}<br />
hline<br />
hline<br />
Sans augmentation &multicolumn{2}{c}{60.11 \%}\<br />
hline<br />
& $DL^{circ}$ & $DL^{ullet}$ \<br />
hline<br />
Augmentation avec restriction ({$R^{ullet}$}) & 63.12 \% (1) & 72.07 \% (2)\<br />
hline<br />
Augmentation sans restriction ({$R^{circ}$}) & 42.60 \% (4) & 76.77 \% (3) \<br />
hline<br />
end{tabular}<br />
caption{Pourcentage des bonnes associations selon une évaluation manuelle menée par 4 experts.}<br />
label{tab:evaluationExperts}<br />
end{table}</p>
<p>Nous cherchons à travers le Tableau~
ef{tab:evaluationExperts} à classer les configurations de notre système en termes de og qualité fg, du point de vue d'utilisateurs humains. Le cas 1 signifie que dans une configuration se restreignant aux termes du débat et sans procédure de désambiguïsation, 63.12\% des relations d'association à ajouter à la base de connaissance sont jugés correctes par les experts. Pour la meilleure configuration (cas 3), où nous procédons à une désambiguïsation sans se limiter aux termes-clés du débat, nous obtenons 76.77\% de bonnes associations.</p>
<p>egin{table}[!h]<br />
egin{center}<br />
esizebox{ extwidth}{!}{<br />
abcolsep = 2 abcolsep<br />
egin{tabular}{lccccc}<br />
hlinehline<br />
& $KT$ & multicolumn{2}{c}{$KT^{dagger}$} & multicolumn{2}{c}{$KT^{ddagger}$} \<br />
hline<br />
& & $DL^{circ}$ & $DL^{ullet}$ & $DL^{circ}$ & $DL^{ullet}$ \<br />
hline<br />
multicolumn{6}{l}{ extit{ extbf{Avec restriction aux termes-clés du débat: $R^{ullet}$}}}\<br />
hline<br />
Support & 0.0667 & 0.1300 & 0.0836 & extbf{0.1658} & 0.1390\<br />
Nouveauté & 0.0546 & 0.0681 & 0.0564 & extbf{0.0733} & 0.0690\<br />
%Surprise par co-occurrence (conclusion) & 0.6782 & 0.1810 & extbf{0.0081} & 0.4540 & 0.5621\<br />
Surprise par co-occurrence & 0.5662 & extbf{0.7995} & 0.5304 & 0.1270 & 0.1294 \<br />
%Surprise par contenu (conclusion) & 0.7140 & 0.8501 & 0.8130 & extbf{0.9241} & 0.9100\<br />
Surprise par voisinage & 0.9488 & 0.9623 & 0.9706 & 0.9674 & extbf{0.9718}\<br />
hline<br />
Score agrégé & 0.2103 & 0.2872 & 0.2215 & 0.1965 & 0.1863 \<br />
Score agrégé syn+hyper & &multicolumn{2}{c}{0.4838}&multicolumn{2}{c}{0.4079}\<br />
hline<br />
multicolumn{6}{l}{ extit{ extbf{Sans restriction aux termes-clés du débat: $R^{circ}$}}}\<br />
hline<br />
Support & 0.0667 & 0.1352 & 0.0978 & extbf{0.1667} & 0.1359\<br />
Nouveauté & 0.0546 & 0.0780 & 0.0615 & extbf{0.0799} & 0.0676\<br />
% par co-occurrence (conclusion) & && 0.7065 &&\<br />
Surprise par co-occurrence & 0.5662 & extbf{0.7167} & 0.4534 & 0.3481 & 0.1957\<br />
%Surprise par contenu (conclusion) & && 0.8155 & &\<br />
Surprise par voisinage & 0.9488 & 0.9502 & extbf{0.9602} & 0.8997 & 0.9497\<br />
hline<br />
Score agrégé & 0.2103 & 0.2911 & 0.2262 & 0.2541 & 0.2032 \<br />
Score agrégé syn+hyper & &multicolumn{2}{c}{0.5452}&multicolumn{2}{c}{0.4294}\<br />
hline<br />
end{tabular}}<br />
caption{Comparaison des résultats de l'analyse formelle de concepts : $KT$ avec le contexte initial ; $KT^{dagger}$ avec le contexte augmenté avec les synonymes ; $KT^{ddagger}$ avec le contexte augmenté avec les hyperonymes. L'augmentation est faite avec et sans restriction aux termes du débat.} label{tab:résultats}<br />
end{center}<br />
%vskip -5mm<br />
end{table}<br />
%vskip -0mm</p>
<p>Dans le Tableau~
ef{tab:résultats}, nous constatons que la nouveauté est globalement très faible, ce qui indique que l'on trouve peu d'associations n'existant pas dans la base de connaissances. Ceci est positif du point de vue de la complétude de la base. On constate par ailleurs que la surprise est globalement très haute, ce qui veut dire qu'une information nouvelle n'aurait pas pu être inférée, dans la quasi-totalité des cas. Ceci est un autre résultat très positif qui justifie l'utilité de notre approche d'extraction de connaissances. </p>
<p>egin{table}[!h]<br />
centering<br />
egin{tabular}{ccc}<br />
hline<br />
hline<br />
Sans augmentation &multicolumn{2}{c}{0.1264}\<br />
hline<br />
& $DL^{circ}$ & $DL^{ullet}$ \<br />
hline<br />
Augmentation avec restriction ({$R^{ullet}$}) & 0.3048 (1) & 0.2939 (2) \<br />
hline<br />
Augmentation sans restriction ({$R^{circ}$}) & 0.2290 (4) & 0.3264 (3) \<br />
hline<br />
end{tabular}<br />
caption{Combinaison des résultats des métriques avec la proportion des bonnes associations (évaluation manuelle) - Il s'agit d'un score et non d'un pourcentage. }<br />
label{tab:evaluationCombination}<br />
end{table}<br />
vskip -3mm</p>
<p>Nous observons un effet conjoint à l'étape de désambiguïsation $DL$ et à la restriction $R$ ou non aux termes-clés du débat. Ce croisement est clarifié dans le Tableau~
ef{tab:evaluationCombination}. La configuration la plus favorable est celle avec une augmentation avec synonymes et hyperonymes sans $R$ et avec étape de $DL$ (cas 3). <br />
La seconde meilleure configuration est celle sans $DL$ et avec $R$ (cas 1). La pire configuration, qui a de très mauvais résultats, est la combinaison de $R^{circ}$ et $DL^{circ}$ (cas 4). Le score du dernier cas (cas 2 : $R^{ullet}$ et $DL^{ullet}$), bien que correct, est inférieur aux cas 1 et 3.<br />
medbreak<br />
La désambiguïsation lexicale ($DL$) et la restriction ($R$) aux termes déjà présents dans le débat, visent le même but, contrôler le foisonnement lexical, et ne pas tomber dans le piège de polysémie. <br />
L'approche avec $R$ permet de ne pas introduire de termes qui ne sont pas apparus dans le débat, il n'y a donc aucune chance d'introduire, par accident, un terme sans rapport. Le cas 2 est intéressant car il n'est pas intuitif : en effet, on s'attendrait à ce que l'action conjointe de $D$ et $R$ donne les meilleurs résultats, or ce n'est pas le cas. A priori l'effet restrictif conjoint de $DL$ et $R$ empêche un rapprochement efficace des propos du débat. Ne pas faire de $R$ permet d'augmenter la richesse des associations, toutefois cette richesse doit être contrôlée par la $DL$. <br />
%vskip -5mm<br />
section{Conclusion et perspectives}label{conclusion}<br />
%vskip -1mm<br />
%% parler de :<br />
%% pertinence de l'étape de desamb<br />
%% pertienent si on ne se limite pas aux termes du débat<br />
%%<br />
Dans cet article, nous avons présenté une IA d'accompagnement de débats, KeepTalk (Knowledge Extraction for Enhanced online Public Talks and Argumentative Learning Know-how), dont un des objectifs est d'extraire des associations nouvelles entre termes à partir des listes de termes-clés des arguments d’un débat. Une association pertinente est celle qui permet d'inférer des connaissances nouvelles, et qui est elle-même non ou difficilement inférable.</p>
<p>Les débats analysés sont issus de la plate-forme AREN conçue dans le cadre du projet AREN-DIA.<br />
Les débattants se répondant les uns aux autres, une quantité importante d'information est implicite, ce qui nous a encouragé à solliciter les utilisateurs à participer à l'indexation de leur propos. L'exploitation des éléments d'indexation est réalisé de façon itérative durant l'entièreté du débat.<br />
Les ensembles de termes indexant chaque commentaire sont co-construits d'un côté, par la procédure automatisée ({small extit{IDÉFIX}}), et de l'autre, par une extit{supervision} et extit{complétion} par les utilisateurs des termes extraits par {small extit{IDÉFIX}}. Cette supervision est permise en donnant à l'utilisateur la possibilité de extit{proposer, valider ou invalider} des termes de l'ensemble proposé par l'IA accompagnant le débat. Ce retour est pris en compte lors des itérations de descriptions thématiques ultérieures, menant à une indexation de meilleure qualité.</p>
<p>La partie calculatoire de l'approche proposée est organisée en plusieurs modules aboutissant à une étape d'extraction de connaissances alimentée par l'analyse formelle de concepts. Après une augmentation lexicale, cette étape permet de créer des implications entre termes (par exemple, si A est présent alors B et C sont aussi présents).<br />
Les implications produites sont destinées à être introduites dans la base de connaissances. Par exemple, si nous avons $A
ightarrow B, C$, alors dans le réseau lexical JDM nous ajouterons : A extit{r\_associated} B et A extit{r\_associated} C. </p>
<p>Les résultats obtenus sont prometteurs et soulignent l'efficacité d'effectuer conjointement une analyse basée sur l'AFC et une augmentation lexicale à partir d'une base de connaissances. La base de connaissances (JeuxDeMots) s'en trouve améliorée et par ricochet les propositions automatique de termes-clés augmentent en pertinence.<br />
En perspective, il serait important, sur la base des scores de l'évaluation manuelle, d'agréger les scores des métriques automatiques de manière à obtenir un score global qui serait représentatif de la qualité (que nous avons cherché à obtenir ici par une évaluation manuelle).<br />
Concernant l'extraction des connaissances, en perspective, le projet explorera d'autres représentations des régularités : autres implications, règles d'association et relations causales ; ce qui permettra d'ajouter dans la base de connaissances des informations sur des types de relations plus précises (autres que les associations d'idées).<br />
Dans la continuité du schéma d'incitation de l'utilisateur à compléter ses propos, on pourrait envisager, en perspective à ce travail, l'intégration d'une IA générative à des fins d'animation ou de synthèse du débat. Cet agent produirait de nouveaux propos au débat à partir du contenu structuré issu des procédures d'indexation des commentaires des utilisateurs.<br />
%vskip -10mm<br />
<br />
%vskip -0mm<br />
ibliographystyle{apalike}<br />
ibliography{biblio}</p>
<p>%vskip -2mm<br />
appendix</p>
<p><br />
Fr</p>
<p>end{document}</p>
<p><br />
</p>