<p><strong>Abstract</strong>&nbsp;:&nbsp;Evaluation has always attracted special interest among a large variety of professional groups, scientific disciplines and other related circles. It is because it can be used for planning or assistance development, certification or compliance, gratification or promotion it has gained this momentum. This article focuses on the evaluation paradigms within Information and Communication Sciences, and in particular automatic information processing systems, evaluated for info-documentary purposes. In the first section, we present a state of the art of evaluation practices and define a methodology for data collection and analysis together with more related and fundamental issues. In order to concretize our reflections and proposals, we rely on a literature review listing some evaluation campaigns and actions organized at the national and international levels. The second part of our article will be devoted to discussions and debates on evaluation as a scientific concern between a concern about theorization and the complexity of standardization.</p> <p><strong>Keywords</strong>: metrology, evaluation paradigms, information processing, relevance, practices and uses, reference system.</p> <p>&nbsp;</p> <h2>INTRODUCTION</h2> <p>Parce qu&#39;elle peut servir la planification ou l&#39;aide au d&eacute;veloppement, la certification ou la mise en conformit&eacute;, la gratification ou la promotion&hellip; l&#39;&eacute;valuation a toujours suscit&eacute; un int&eacute;r&ecirc;t majeur de la part des industriels et des chercheurs dans diff&eacute;rents domaines professionnels et disciplines scientifiques.</p> <p>Selon des contextes, sa d&eacute;nomination est assimil&eacute;e parfois &agrave; ses finalit&eacute;s (<em>valorisation, validation, notation, lab&eacute;lisation, qualim&eacute;trie, webom&eacute;trie&hellip;</em>) et sa mod&eacute;lisation s&#39;est construite autour de supports aussi vari&eacute;s (<em>audit, benchmark, tableau de bord, matrice swot, diagramme de Gantt&hellip;</em>) (Reider, 2000).</p> <p>Ses concepts et param&egrave;tres sont associ&eacute;s &agrave; un r&eacute;seau s&eacute;mantique &eacute;tendu (<em>performance, pertinence, distance, r&eacute;f&eacute;rentiel, m&eacute;trique, besoin informationnel</em>) g&eacute;n&eacute;rant ainsi des dichotomies et une querelle de m&eacute;thodes en opposition (<em>quantitative/qualitative, automatique/manuelle, verticale/horizontale, bo&icirc;te transparente/bo&icirc;te noire, ex-ante/ex-post, intrants/extrants, interface dynamique/ &agrave; interface statique, orient&eacute;e syst&egrave;me/orient&eacute;e usager</em>&hellip;).</p> <p>Quand un syst&egrave;me est suppos&eacute; &agrave; partir de son traitement d&#39;information servir &agrave; des applications et des usages pr&eacute;conis&eacute;s, il devient indispensable de v&eacute;rifier par une &eacute;valuation la l&eacute;gitimit&eacute; et l&#39;exactitude de cette pr&eacute;conisation. L&#39;&eacute;valuation devient alors comme une proc&eacute;dure pour juger un ou plusieurs attributs&nbsp;: l&#39;ad&eacute;quation du syst&egrave;me &agrave; l&#39;usage pr&eacute;conis&eacute;, la conformit&eacute; de ses r&eacute;sultats par rapports aux attentes, son taux de progression vers le but d&eacute;termin&eacute; &hellip; et manifestement, c&#39;est dans la mod&eacute;lisation de cette proc&eacute;dure et dans son cadrage m&eacute;thodologique o&ugrave; r&eacute;side toute la difficult&eacute; de l&#39;&eacute;valuation aussi bien sur le plan th&eacute;orique que pratique.</p> <p>Si l&#39;&eacute;valuation en tant que <em>pratique </em>est massivement exerc&eacute;e dans le milieu universitaire, en tant qu&#39;<em>objet d&#39;&eacute;tude</em> elle n&#39;a pas eu le m&ecirc;me m&eacute;rite. En sciences de l&#39;information et de la communication (SIC), peu nombreux sont les travaux de recherche qui se sont int&eacute;ress&eacute;s &agrave; l&#39;objet de l&#39;&eacute;valuation des syst&egrave;mes d&#39;information et &agrave; fortiori des syst&egrave;mes de traitement automatique de l&#39;information. Paradoxalement, on constate dans l&#39;histoire des sciences de l&#39;information que la recherche documentaire est consid&eacute;r&eacute;e comme un des domaines pionniers o&ugrave; se sont d&eacute;velopp&eacute;es les premi&egrave;res r&eacute;flexions atour de l&#39;&eacute;valuation quantitative, des r&eacute;flexions qui ont &eacute;t&eacute; &agrave; l&#39;origine des m&eacute;triques traditionnelles (Rappel et Pr&eacute;cision) et de leur moyenne harmonique F-measure (Van Rijsbergen, 1979 ; Salton et McGill, 1983). Aujourd&#39;hui la volum&eacute;trie a &eacute;volu&eacute;, les besoins se sont diversifi&eacute;s et les probl&eacute;matiques se sont complexifi&eacute;es, mais l&#39;on conserve encore les m&ecirc;mes indicateurs de r&eacute;f&eacute;rence depuis des d&eacute;cennies.</p> <p>Dans cet article centr&eacute; sur l&#39;&eacute;valuation en tant qu&#39;objet d&#39;&eacute;tude, nous essayons dans une premi&egrave;re section de recadrer ce concept &agrave; travers ses diff&eacute;rents mod&egrave;les et attributs, et particuli&egrave;rement dans les contextes info-documentaires. Ensuite, dans une deuxi&egrave;me section consid&eacute;r&eacute;e comme terrain exp&eacute;rimental, nous pr&eacute;sentons le fonctionnement et l&#39;apport d&#39;un ensemble de syst&egrave;mes de traitement d&#39;information (&agrave; base linguistique) en pr&eacute;sentant certains programmes et actions d&#39;&eacute;valuation, qui leur ont &eacute;t&eacute; consacr&eacute;es au niveau national et international. Enfin, une derni&egrave;re section est consacr&eacute;e aux discussions et d&eacute;bats autour de l&#39;&eacute;valuation et son cadrage m&eacute;thodologique.</p> <h2>L&#39;&Eacute;VALUATION&hellip; DES CONCEPTS ET DES M&Eacute;THODES</h2> <h3>Les TIC et l&#39;&eacute;valuation dans les SIC</h3> <p>Dans une perspective d&#39;analyse et d&#39;expertise, et contrairement aux m&eacute;thodologies classiques de recueil et d&#39;analyse de donn&eacute;es telles que l&#39;analyse de traces, l&#39;entretien, le questionnaire, l&#39;observation&hellip;, l&#39;&eacute;valuation dans le cas des syst&egrave;mes de traitement d&#39;information pr&eacute;sente un travail de recherche multidisciplinaire assez pr&eacute;occupant. Le manque d&#39;une normalisation consensuelle additionn&eacute; &agrave; la difficult&eacute; d&#39;une mod&eacute;lisation rend l&rsquo;&eacute;valuation comme objet de recherche complexe et tr&egrave;s discutable dans les diff&eacute;rents champs disciplinaires, tels que les sciences &eacute;conomiques et sociales, sciences de gestion, sciences politiques, sciences de l&#39;&eacute;ducation, sciences du langage, informatique et math&eacute;matiques et davantage dans les sciences de l&#39;information et de la communication...</p> <p>Situ&eacute;e au carrefour de ces diff&eacute;rents champs professionnels et disciplinaires, l&#39;&eacute;valuation est souvent assimil&eacute;e &agrave; ses finalit&eacute;s, elle peut avoir le sens de <em>valorisation </em>dans les activit&eacute;s &eacute;conomiques et marketing ; le sens de <em>certification </em>dans des activit&eacute;s d&#39;assurance qualit&eacute;&nbsp;; le sens de <em>notation</em>, en DRH ou plus g&eacute;n&eacute;ralement pour tout domaine ayant recours &agrave; une &eacute;chelle ou un r&eacute;f&eacute;rentiel de cotation. Ces concepts et d&#39;autres sont assez r&eacute;currents dans les travaux de recherche sur l&#39;&eacute;valuation, aussi bien sur le plan m&eacute;thodologique qu&#39;empirique.</p> <p>En sciences de gestion, on a recourt &agrave; une &eacute;valuation multicrit&egrave;re ACV (<em>analyse du cycle de vie</em>) qui a pour ambition de quantifier l&rsquo;ensemble des impacts d&rsquo;activit&eacute;s humaines sur l&rsquo;environnement en d&eacute;terminant de mani&egrave;re syst&eacute;matique les consommations de ressources et les &eacute;missions de substances li&eacute;es &agrave; la production d&rsquo;un bien ou d&rsquo;un service (Gu&eacute;rin-Schneider et Tsanga Tabi, 2017).</p> <p>Dans le domaine des ressources humaines, l&#39;&eacute;valuation souvent individualis&eacute;e vise &agrave; mesurer les comp&eacute;tences et performances du personnel dans le cadre d&#39;une gestion de carri&egrave;res professionnelles ou d&#39;un plan de formation. Le cadre m&eacute;thodologique s&#39;appuie g&eacute;n&eacute;ralement sur les m&eacute;thodes et techniques couramment utilis&eacute;es en sciences &eacute;conomiques et sociales (questionnaire, entretien, observation&hellip;)</p> <p>En sciences de l&#39;&eacute;ducation, l&#39;&eacute;valuation qu&#39;elle soit diagnostique, sommative ou formative (Michel et Rouissi, 2003), a toujours eu une place pr&eacute;dominante, notamment sous l&#39;effet de la pr&eacute;gnance du digital et des innovations p&eacute;dagogiques. Dans leurs travaux de recherche sur les pratiques de l&#39;&eacute;valuation et aussi sur l&rsquo;&eacute;volution de la recherche en &eacute;valuation, Jorro et Droyer (2019) se sont int&eacute;ress&eacute;s aux formes &eacute;valuatives en usage avec ses enjeux nouveaux et ses obstacles r&eacute;currents.</p> <p>Si les TIC en tant qu&#39;<em>objets d&rsquo;&eacute;tude</em> ont suscit&eacute; constamment un int&eacute;r&ecirc;t primordial en SIC, les chercheurs en sciences de l&rsquo;information et du document, et encore moins en sciences de la communication, ont tr&egrave;s peu explor&eacute; l&rsquo;&eacute;valuation de ces technologies dans leurs pr&eacute;occupations scientifiques. Au mieux, ils la survolent bri&egrave;vement, quand ils s&#39;int&eacute;ressent dans leurs travaux de recherche &agrave; l&rsquo;analyse des usages, des pratiques, des dispositifs, des processus de ces TIC.</p> <p>Dans une logique interdisciplinaire &agrave; laquelle notre discipline SIC s&rsquo;ouvre par tradition, il nous a sembl&eacute; pertinent de consid&eacute;rer les travaux r&eacute;alis&eacute;s sur l&rsquo;&eacute;valuation par des disciplines connexes et d&#39;en croiser les approches et mod&egrave;les. Si l&#39;&eacute;valuation des syst&egrave;mes en sciences exp&eacute;rimentales a suscit&eacute; des int&eacute;r&ecirc;ts scientifiques dirig&eacute;s par les soucis de la conception et du d&eacute;veloppement, en SIC il a fallu r&eacute;interroger l&#39;&eacute;valuation en lui donnant d&#39;autres dimensions scientifiques, tant sur le plan m&eacute;thodologique en s&#39;int&eacute;ressant &agrave; la nature et &agrave; la pertinence des crit&egrave;res d&rsquo;&eacute;valuation et aux dispositifs mis en &oelig;uvre que sur le plan th&eacute;orique et &eacute;pist&eacute;mologiques en r&eacute;interrogeant les notions de m&eacute;trique, de pertinence, de satisfaction d&rsquo;un besoin informationnel et le dilemme entre l&#39;&eacute;valuateur usager et l&#39;usager &eacute;valuateur.</p> <h3>Les facettes de l&#39;&eacute;valuation</h3> <p>G&eacute;n&eacute;ralement, l&#39;&eacute;valuation d&#39;un syst&egrave;me est l&#39;appr&eacute;ciation de ses performances sur la base d&#39;un besoin informationnel &agrave; satisfaire, &agrave; partir de ressources intrins&egrave;ques ou extrins&egrave;ques mises &agrave; disposition&hellip; la diversit&eacute; des besoins et des ressources est &agrave; l&#39;origine d&#39;une typologie des formes d&#39;&eacute;valuation.</p> <p>Dans une &eacute;valuation dite de <em>progression </em>(<em>verticale</em>), un syst&egrave;me est compar&eacute; &agrave; ses versions ant&eacute;rieures pour une t&acirc;che d&eacute;termin&eacute;e, en vue d&#39;une &eacute;tude diachronique de ses performances. C&#39;est une d&eacute;marche tr&egrave;s courante dans les activit&eacute;s de conception et de d&eacute;veloppement, et inscrite dans les &eacute;tudes de g&eacute;nie informatique&hellip; &Agrave; l&#39;oppos&eacute;, une &eacute;valuation dite d&#39;<em>appariement </em>(<em>transversale</em>) consiste &agrave; comparer les performances d&#39;un syst&egrave;me par rapport &agrave; d&#39;autres con&ccedil;us pour des applications similaires. Cette d&eacute;marche est tr&egrave;s courante dans les &eacute;tudes de benchmarking et de veille concurrentielle et technologique. Il se peut aussi que cet appariement transversal ne soit pas inter-syst&egrave;mes mais effectu&eacute; plut&ocirc;t par rapport &agrave; des r&eacute;f&eacute;rentiels pr&eacute;d&eacute;finis, &eacute;tablis manuellement ou autrement, mais surtout valid&eacute;s.</p> <p>Dans une autre optique d&#39;&eacute;valuation, dite de <em>diagnostic </em>(<em>bo&icirc;te transparente </em>ou <em>glass box</em>), l&#39;usager cherche &agrave; d&eacute;terminer &agrave; partir d&#39;une s&eacute;rie de tests les sources de performance ou d&#39;imperfection d&#39;un syst&egrave;me par rapport &agrave; une t&acirc;che pr&eacute;cise. Dans cette d&eacute;marche, minutieuse et complexe, l&#39;&eacute;valuation ne concerne pas le syst&egrave;me dans sa globalit&eacute; mais seulement certains modules (de pr&eacute;traitements) intrins&egrave;ques &eacute;valu&eacute;s parfois s&eacute;par&eacute;ment. Cette d&eacute;marche, elle aussi, est orient&eacute;e conception et d&eacute;veloppement dans la mesure o&ugrave; ces tests de diagnostic permettent de r&eacute;viser et d&eacute;velopper par progression les performances d&#39;un syst&egrave;me &agrave; partir d&#39;une &eacute;valuation de ses composantes. &Agrave; l&#39;oppos&eacute;, une &eacute;valuation peut &ecirc;tre men&eacute;e sur le concept de la <em>bo&icirc;te noire</em> (<em>black&nbsp;box</em>). Elle consiste &agrave; faire abstraction sur les composantes intrins&egrave;ques du syst&egrave;me, et ne s&#39;int&eacute;resse qu&#39;au jugement des performances globales du syst&egrave;me, elle se focalise uniquement sur les ressources mises en entr&eacute;e du syst&egrave;me (<em>Input</em>) et sur les donn&eacute;es obtenues en sortie (<em>Output</em>). Les pr&eacute;traitements des donn&eacute;es effectu&eacute;s par les diff&eacute;rents modules du syst&egrave;me ne font l&#39;objet d&#39;aucune &eacute;valuation dans cette d&eacute;marche. Pour des raisons expliqu&eacute;es ult&eacute;rieurement, l&#39;&eacute;valuation selon le principe de la <em>bo&icirc;te noire</em> est celle adopt&eacute;e unanimement par la plupart des campagnes d&#39;&eacute;valuation.</p> <p>Concernant l&#39;interactivit&eacute; de l&#39;usager, les &eacute;tudes d&#39;&eacute;valuation lui r&eacute;servent une place consid&eacute;rable. L&#39;&eacute;valuation &agrave; <em>interface statique </em>consiste &agrave; juger les performances d&#39;un syst&egrave;me, sans faire appel &agrave; des interventions humaines ou &agrave; des enrichissements ext&eacute;rieurs. &Agrave; l&#39;inverse, l&#39;&eacute;valuation &agrave; <em>interface dynamique </em>permet d&#39;&eacute;tudier la valeur ajout&eacute;e et l&#39;impact des ressources d&#39;enrichissement introduites dans le syst&egrave;me (ex. bases de connaissances ou m&eacute;moires de traduction) ou des choix d&#39;orientation ordonn&eacute;s par l&#39;usager (ex. &agrave; des fins d&#39;apprentissage automatique).</p> <p>Une &eacute;valuation peut &ecirc;tre <em>quantitative</em>, exprim&eacute;e par des <em>m&eacute;triques </em>qui calculent le degr&eacute; de similarit&eacute; entre les donn&eacute;es fournies en sortie par le syst&egrave;me et les r&eacute;f&eacute;rentiels pr&eacute;&eacute;tablis. &Agrave; l&#39;oppos&eacute;, une &eacute;valuation <em>qualitative </em>consiste &agrave; analyser et annoter les performances des syst&egrave;mes sans forc&eacute;ment les exprimer en notation num&eacute;rique.</p> <p>Parall&egrave;lement &agrave; cette derni&egrave;re dichotomie, on trouve aussi l&#39;&eacute;valuation <em>manuelle </em>versus <em>automatique </em>selon les usages. Si l&#39;expertise manuelle est consid&eacute;r&eacute;e comme un dispositif valide et fiable dans les actions et programmes d&rsquo;&eacute;valuation, la subjectivit&eacute; des experts, leur niveau de connaissances et de pratiques, et leur degr&eacute; de tol&eacute;rance sont souvent sources de questionnements et de d&eacute;bats dans les paradigmes d&#39;&eacute;valuation. En revanche, la volum&eacute;trie des r&eacute;sultats fournis par les syst&egrave;mes pour certaines applications contraint les experts &agrave; recourir parfois &agrave; une &eacute;valuation automatique, outill&eacute;e par un algorithme d&#39;appariement des donn&eacute;es fournies par le syst&egrave;me &agrave; des r&eacute;f&eacute;rentiels pr&eacute;&eacute;tablis et stables. Les limites ou plut&ocirc;t la compl&eacute;mentarit&eacute; des deux approches peuvent justifier le recours &agrave; une solution hybride, qui permettrait en plus de v&eacute;rifier la fiabilit&eacute; et la cr&eacute;dibilit&eacute; des m&eacute;triques adopt&eacute;es et mises en &oelig;uvre dans le protocole (Timimi, 2006).</p> <h3>&Eacute;valuation et tendances des protocoles</h3> <p>Face &agrave; ces dichotomies de processus et d&#39;outils, l&#39;&eacute;valuation reste une fonction modulable dans la mesure o&ugrave; les m&eacute;thodes ne sont pas forc&eacute;ment cloisonn&eacute;es ou exclusives mais peuvent &ecirc;tre combin&eacute;es et adapt&eacute;es selon les enjeux et les contextes des actions d&#39;&eacute;valuation d&#39;une part et la typologie et contraintes des syst&egrave;mes participant d&#39;autre part. Dans la majorit&eacute; des protocoles &eacute;tudi&eacute;s, on rel&egrave;ve des &eacute;valuations multimodales (ex. <em>horizontale, &agrave; interface dynamique, quantitative et selon le principe de la bo&icirc;te noire</em>&hellip;).</p> <p>G&eacute;n&eacute;ralement, dans la plupart des protocoles d&#39;&eacute;valuation &eacute;tudi&eacute;s, on constate que l&#39;&eacute;valuation <em>verticale </em>(<em>de progression</em>) est abandonn&eacute;e, dans la mesure o&ugrave; il est difficile aux organisateurs de disposer des syst&egrave;mes et encore moins de leurs versions ant&eacute;rieures pour pouvoir &eacute;tudier l&#39;&eacute;volution diachronique des performances. L&#39;&eacute;valuation sur le principe de la <em>bo&icirc;te transparente</em> (de <em>diagnostic</em>), elle aussi, est moins utilis&eacute;e car il s&#39;agit d&#39;un dispositif difficile &agrave; mettre en place, il requiert une connaissance des processus internes et des fondements th&eacute;oriques de chacun des syst&egrave;mes participant. Il r&eacute;clame l&#39;acc&egrave;s &agrave; l&#39;architecture et au code du d&eacute;veloppement du syst&egrave;me, ce qui risque d&rsquo;&ecirc;tre compromettant lorsque l&#39;&eacute;valuateur est un intervenant ext&eacute;rieur (Cavazza, 1993). Cette distinction semble justifi&eacute;e vu que ces m&eacute;thodes abandonn&eacute;es sont orient&eacute;es &quot;conception&quot; ce qui n&#39;est pas l&#39;objectif principal des campagnes d&#39;&eacute;valuation et rel&egrave;ve plut&ocirc;t des services de d&eacute;veloppement et de maintenance propres &agrave; chaque syst&egrave;me.</p> <p>&Agrave; l&#39;oppos&eacute;, le principe de l&#39;&eacute;valuation <em>bo&icirc;te noire</em> reste une pratique tr&egrave;s courante dans la plupart des protocoles d&#39;&eacute;valuation &eacute;tudi&eacute;s. Ce choix est justifi&eacute; du fait qu&#39;il s&#39;agit d&#39;un dispositif d&#39;expertise facile &agrave; mettre en &oelig;uvre, unanimement accept&eacute; dans un consortium compos&eacute; de chercheurs universitaires, d&#39;industriels de syst&egrave;mes et d&#39;usagers potentiels, et pose le moins de probl&egrave;mes m&eacute;thodologiques et d&#39;obligations empiriques. Sans n&eacute;cessiter l&#39;acc&egrave;s au fonctionnement interne des syst&egrave;mes, ce choix permet une &eacute;tude comparative malgr&eacute; la diff&eacute;rence des architectures et des pr&eacute;traitements employ&eacute;s. (Cavazza, 1993 ; Sparck-Jones et Gallier, 1996).</p> <h2>LES CAMPAGNES D&#39;EVALUATION COMME TERRAIN D&#39;OBSERVATION</h2> <h3>Campagnes d&#39;&eacute;valuation : &Eacute;tat des lieux</h3> <p>Peu connue comme activit&eacute; normalis&eacute;e, l&#39;&eacute;valuation des syst&egrave;mes de traitement automatique d&#39;information est rest&eacute;e au centre des pr&eacute;occupations d&#39;organisations institutionnelles, politiques, industrielles et scientifiques. Plusieurs programmes et actions d&#39;&eacute;valuation ont &eacute;t&eacute; organis&eacute;s au niveau national et international et donn&eacute; lieu &agrave; des publications et congr&egrave;s d&eacute;di&eacute;s exclusivement &agrave; l&#39;&eacute;valuation (<em>EACL, ACL, LREC</em>...). La plupart de ces actions se sont int&eacute;ress&eacute;es principalement aux syst&egrave;mes de traitement automatique de l&#39;information textuelle (&eacute;crite ou orale).</p> <p>Le traitement de l&#39;information textuelle, comme d&#39;ailleurs celui de l&#39;information imag&eacute;e, compte un grand nombre de syst&egrave;mes, con&ccedil;us majoritairement sur des bases linguistiques et/ou statistiques et sous une architecture multi-agents SMA (<em>syst&egrave;me multi-agents</em>). &Agrave; partir d&#39;une mod&eacute;lisation des processus langagiers, les syst&egrave;mes sont d&eacute;velopp&eacute;s dans une perspective d&#39;automatiser des pratiques et des activit&eacute;s informationnelles et documentaires, prises en charge habituellement par des usagers (humains). En fonction des besoins informationnels et de la complexit&eacute; de mod&eacute;lisation, cette automatisation peut &ecirc;tre partielle ou totale.</p> <p>La dichotomie entre un traitement automatique et un traitement manuel a &eacute;t&eacute; alors et demeure le stimulateur principal pour la plupart des programmes d&#39;&eacute;valuation au niveau international comme CLEF (<em>Cross Language Evaluation Forum</em>)&nbsp;; DARPA (<em>Defense Advanced Research Projects Agency</em>) ; MUC (<em>Message Understanding Conferences</em>)&nbsp;; NTCIR (<em>NII Test Collection for IR Systems</em>)&nbsp;; TDT (<em>Topic Detection and Tracking</em>)&nbsp;; TREC (<em>Text REtrieval Conference</em>), et dans une moindre mesure, au niveau national et francophone, comme le <em>Programme TECHNOLANGUE </em>(Paroubek et al., 2007).</p> <h3>Retour sur les composantes d&#39;un outil &agrave; base linguistique</h3> <p>G&eacute;n&eacute;ralement, un syst&egrave;me de traitement automatique d&#39;information s&#39;appuie d&#39;abord sur un pr&eacute;traitement technique (formatage, nettoyage&hellip;), ensuite sur un pr&eacute;traitement linguistique faisant appel &agrave; un ensemble de modules :</p> <ul> <li>un module de segmentation du corpus en unit&eacute;s d&#39;analyse (en paragraphes, en phrases, en propositions autour d&#39;un verbe, en syntagmes, en concepts, en mots&hellip;)</li> <li>un module d&#39;annotation morphosyntaxique qui consiste &agrave; analyser chaque forme du corpus dans son contexte et lui associer son &eacute;tiquette morphosyntaxique ; cela permet de d&eacute;celer des relations potentielles entre des mots du texte ayant des orthographes diff&eacute;rentes (ex. reines, r&eacute;gner, royal) et surtout d&#39;an&eacute;antir des relations entre des mots du texte ayant des orthographes identiques (ex.&nbsp;<em>r&eacute;sident=verbe, r&eacute;sident=adjectif, r&eacute;sident=nom</em>) ou (ex.&nbsp;<em>poste=verbe, poste=nom.mas, poste=nom.f&eacute;m</em>).</li> <li>un module d&#39;analyse s&eacute;mantique qui consiste &agrave; identifier des relations de synonymie entre les constituants du texte, voire extraire des r&eacute;seaux s&eacute;mantiques.</li> </ul> <p>En fonction de l&#39;architecture du syst&egrave;me, ces modules interviennent de mani&egrave;re s&eacute;quentielle ou interactive pour lever les ambigu&iuml;t&eacute;s qui marquent profond&eacute;ment les langues naturelles, des mots de m&ecirc;me orthographe mais de sens diff&eacute;rents (polys&eacute;mie) et des mots de m&ecirc;me sens mais d&#39;orthographes diff&eacute;rentes (synonymie), en plus des autres difficult&eacute;s li&eacute;es aux anaphores, m&eacute;taphores&hellip;.</p> <h3>Les paradigmes d&#39;&eacute;valuation et les travaux empiriques des campagnes</h3> <p>Au-del&agrave; de la diff&eacute;rence des mod&egrave;les th&eacute;oriques et architectures, nous pouvons &eacute;tudier l&#39;&eacute;valuation de syst&egrave;mes sous trois grandes entr&eacute;es, inspir&eacute;es de la norme ISO 9126 (ISO, 1991). On peut &eacute;valuer les param&egrave;tres internes du syst&egrave;me, sans n&eacute;cessairement l&#39;ex&eacute;cuter ; on peut ainsi &eacute;tudier ses dictionnaires et grammaires, ses algorithmes, le volume et la nature des donn&eacute;es &agrave; traiter, etc. Il reste toutefois difficile d&#39;estimer l&#39;impact et la valeur ajout&eacute;e de ces param&egrave;tres. D&#39;ailleurs, c&#39;est pour cette raison que la plupart des campagnes d&#39;&eacute;valuation utilisent plut&ocirc;t les param&egrave;tres externes et proposent dans leur protocole des approches pour &eacute;tudier la fonctionnalit&eacute;, la fiabilit&eacute;, l&#39;utilisabilit&eacute;, l&#39;efficacit&eacute;, la maintenance ou la portabilit&eacute; d&#39;un syst&egrave;me. Enfin, on peut &eacute;valuer un syst&egrave;me en fonction de contexte pour s&#39;int&eacute;resser &agrave; des param&egrave;tres li&eacute;s davantage &agrave; l&#39;usage tels que l&#39;efficacit&eacute;, l&#39;efficience (rendement), la satisfaction, ou la suret&eacute; (Popescu-Belis, 2007).</p> <p>De m&ecirc;me, nous pouvons &eacute;tudier l&#39;&eacute;valuation de syst&egrave;mes en deux autres entr&eacute;es, qui sont cette fois-ci davantage li&eacute;es aux types de besoins auxquels r&eacute;pondent ces syst&egrave;mes. a) Il s&#39;agit de syst&egrave;mes linguistiques, proprement dits, comme des outils de d&eacute;sambigu&iuml;sation lexicale ou des analyseurs morpho-syntaxiques (tagging, parsing). Ces syst&egrave;mes ne pr&eacute;sentent aucun int&eacute;r&ecirc;t pour un usager final, si ce n&#39;est qu&#39;&agrave; des concepteurs ou des chercheurs en ing&eacute;nierie linguistique. Leur &eacute;valuation n&#39;a d&#39;ailleurs pas suscit&eacute; de grands int&eacute;r&ecirc;ts malgr&eacute; le succ&egrave;s de la campagne d&#39;&eacute;valuation GRACE (<em>Grammaires et Ressources pour les Analyseurs de Corpus et leur Evaluation</em>) lanc&eacute;e vers les ann&eacute;es 1994, par le CNRS. Si cette action n&#39;a jamais &eacute;t&eacute; reconduite, elle a le m&eacute;rite d&#39;&ecirc;tre consid&eacute;r&eacute;e comme projet pr&eacute;curseur de toutes les campagnes d&#39;&eacute;valuation effectu&eacute;es ult&eacute;rieurement au niveau national et qui a permis de fonder les premi&egrave;res r&eacute;flexions sur l&#39;&eacute;tude de l&#39;&eacute;valuation tant sur le plan m&eacute;thodologique que scientifique. b) Il s&#39;agit des outils applicatifs : ce sont des outils bas&eacute;s certes sur des pr&eacute;traitements linguistiques et fournissent en sortie des donn&eacute;es directement exploitables &agrave; des fins info-documentaires tels que des outils de cat&eacute;gorisation ou classification, de filtrage, d&#39;indexation, d&#39;extraction de termes d&#39;un domaine. On compte ici &eacute;galement des syst&egrave;mes avec des applications telles que l&#39;<em>Analyse de sentiments ou d&#39;opinions, la recherche d&#39;information, le r&eacute;sum&eacute; et la traduction automatique...</em></p> <p>Concr&egrave;tement, la plupart des campagnes d&#39;&eacute;valuation observ&eacute;es ont adopt&eacute; un paradigme d&#39;&eacute;valuation fond&eacute; sur un processus en deux phases : d&#39;abord une mise &agrave; disposition des donn&eacute;es n&eacute;cessaires aux syst&egrave;mes ensuite une restitution des r&eacute;sultats fournis par les syst&egrave;mes en r&eacute;ponse &agrave; une m&ecirc;me t&acirc;che (dite <em>de contr&ocirc;le)</em> communiqu&eacute;e en amont comme une hypoth&egrave;se d&#39;usage. Toutes les &eacute;valuations sont partielles et ne portent que sur des t&acirc;ches de contr&ocirc;le (une partie des applications des syst&egrave;mes). Une &eacute;valuation plus globale serait on&eacute;reuse et difficile tant sur le plan logistique que scientifique, son co&ucirc;t peut &ecirc;tre excessivement plus &eacute;lev&eacute; que le b&eacute;n&eacute;fice retir&eacute;. Le pr&eacute;suppos&eacute; du paradigme est qu&#39;il est possible de mesurer en contraste l&#39;efficacit&eacute; des syst&egrave;mes dans un domaine pr&eacute;cis en d&eacute;finissant une t&acirc;che de contr&ocirc;le &agrave; la fois proche des applications potentielles, pour des retomb&eacute;es industrielles, mais suffisamment g&eacute;n&eacute;rique pour convenir &agrave; la majorit&eacute; des acteurs industriels et acad&eacute;miques de la campagne. Aussi, l&#39;hypoth&egrave;se sous-jacente dans la plupart des paradigmes d&#39;&eacute;valuation d&#39;ici, est que dans le cas d&#39;une t&acirc;che de contr&ocirc;le suffisamment repr&eacute;sentative d&#39;une probl&eacute;matique et d&#39;un besoin informationnel r&eacute;el, une diff&eacute;rence quantitative significative entre deux syst&egrave;mes traduit n&eacute;cessairement une diff&eacute;rence qualitative entre leurs mod&egrave;les et bases th&eacute;oriques (Adda et al., 1999).</p> <p>Ainsi les syst&egrave;mes de traduction automatique (dans la campagne CESTA) ont &eacute;t&eacute; &eacute;valu&eacute;s sur des t&acirc;ches comme la lisibilit&eacute; et grammaticalit&eacute; du texte produit, la fid&eacute;lit&eacute; s&eacute;mantique ; les syst&egrave;mes questions-r&eacute;ponses (dans la campagne EQUER), ont &eacute;t&eacute; &eacute;valu&eacute;s sur des t&acirc;ches comme les questions factuelles, les r&eacute;ponses binaires, les requ&ecirc;tes de d&eacute;finition ou d&#39;&eacute;num&eacute;ration. D&#39;ailleurs, c&#39;est le changement r&eacute;current de t&acirc;ches et la d&eacute;finition de nouvelles t&acirc;ches traduisant de nouveaux besoins, qui fait l&#39;objet et l&#39;argument principal de chaque nouvelle &eacute;dition d&#39;une campagne.</p> <h2>LA M&Eacute;TA-&Eacute;VALUATION&hellip; OU L&#39;&Eacute;VALUATION &Agrave; L&#39;&Eacute;PREUVE</h2> <p>Dans cette partie, nous pr&eacute;sentons et discutons les diff&eacute;rents param&egrave;tres des cadres m&eacute;thodologiques d&#39;&eacute;valuation, le corpus et l&rsquo;&eacute;chantillon comme ressources textuelles d&rsquo;entr&eacute;e, puis les r&eacute;f&eacute;rentiels et les experts comme rep&egrave;res de comparaison et de jugement. Nous r&eacute;servons une discussion particuli&egrave;re aux m&eacute;triques employ&eacute;es dans les projets.</p> <h3>Le corpus, un mat&eacute;riel souvent conditionn&eacute;</h3> <p>Une r&eacute;flexion sur la constitution de corpus sp&eacute;cialis&eacute;s est une phase indispensable dans tout projet d&rsquo;&eacute;valuation d&rsquo;outils de traitement d&#39;information. D&rsquo;apr&egrave;s Pincemin (1999), le corpus doit v&eacute;rifier trois types de conditions&nbsp;: <em>signifiance, acceptabilit&eacute; et exploitabilit&eacute;</em> en plus de la pertinence par rapport &agrave; un objectif d&rsquo;analyse. L&rsquo;ensemble de ces conditions est n&eacute;cessaire pour sa r&eacute;utilisabilit&eacute;.</p> <p>Dans un programme d&#39;&eacute;valuation, les organisateurs mettent g&eacute;n&eacute;ralement 3 types de corpus &agrave; disposition des syst&egrave;mes : un corpus d&rsquo;entra&icirc;nement (dit aussi de <em>test &agrave; blanc</em> ou de <em>training phase</em>) qui permet une pr&eacute;paration des syst&egrave;mes &agrave; partir d&#39;une simulation des param&egrave;tres technique et logistique de l&#39;&eacute;valuation officielle ;&nbsp; un corpus de masquage qui permet d&#39;accro&icirc;tre le volume des donn&eacute;es &agrave; traiter et de dissimuler ainsi la partie d&eacute;di&eacute;e &agrave; l&#39;&eacute;valuation ; le corpus d&#39;&eacute;valuation qui doit avoir des propri&eacute;t&eacute;s physiques et th&eacute;matiques (taille, format, structure, balisage, contenu, homog&eacute;n&eacute;it&eacute;, &hellip;) r&eacute;pondant suffisamment aux contraintes techniques et scientifiques des syst&egrave;mes. Des ressources compl&eacute;mentaires peuvent &ecirc;tre aussi mises &agrave; disposition de la campagne selon les besoins des syst&egrave;mes comme des donn&eacute;es d&#39;apprentissage pour les syst&egrave;mes &agrave; base statistique (<em>dry run</em>), ou des termes d&rsquo;amor&ccedil;age pour les syst&egrave;mes d&#39;extraction de relations (Le&nbsp;Priol,&nbsp;2000).</p> <h3>L&rsquo;&eacute;chantillonnage, un outil parfois fiable, parfois contestable</h3> <p>Dans la plupart des programmes d&rsquo;&eacute;valuation bas&eacute;s sur une expertise humaine, il n&rsquo;est pas &eacute;vident que les &eacute;valuateurs effectuent un travail d&#39;appr&eacute;ciation sur tout l&rsquo;ensemble des r&eacute;sultats rendus par les syst&egrave;mes. Et aussi pour des raisons de surcharges cognitives qui conduisent parfois &agrave; des h&eacute;sitations r&eacute;p&eacute;t&eacute;es et finalement &agrave; des jugements arbitraires, il est fortement recommand&eacute; de proc&eacute;der par &eacute;chantillonnage, dans le sens o&ugrave; l&rsquo;&eacute;chantillon &agrave; &eacute;valuer peut &ecirc;tre choisi &agrave; partir des donn&eacute;es en entr&eacute;e, ou plut&ocirc;t &agrave; partir des r&eacute;sultats de sortie.</p> <p>Seulement, cela n&rsquo;est pas sans interrogations&nbsp;: que l&rsquo;&eacute;chantillon soit s&eacute;lectionn&eacute; dans les donn&eacute;es d&rsquo;entr&eacute;e ou dans les r&eacute;sultats de sortie, comment justifier le choix de sa taille et quels crit&egrave;res retenir pour garantir sa repr&eacute;sentativit&eacute; et d&eacute;terminer son intervalle de confiance ?</p> <p>Dans (Pincemin,&nbsp;1999), cette r&egrave;gle de repr&eacute;sentativit&eacute; est bien comment&eacute;e&nbsp;: &laquo;&nbsp;<em>on peut, lorsque le mat&eacute;riel s&rsquo;y pr&ecirc;te, effectuer l&rsquo;analyse sur &eacute;chantillon. L&rsquo;&eacute;chantillonnage est dit rigoureux si l&rsquo;&eacute;chantillon est une partie repr&eacute;sentative de l&rsquo;univers de d&eacute;part</em>&nbsp;&raquo;. Dans ce cas, les r&eacute;sultats obtenus sur &eacute;chantillon seront g&eacute;n&eacute;ralisables &agrave; l&rsquo;ensemble de l&rsquo;univers. Cependant, peu de travaux de recherche en SHS ont trait&eacute; cette question et discut&eacute; les intervalles de confiance.</p> <p>Pour att&eacute;nuer cette limite, certains projets de recherche se sont appuy&eacute;s sur des automates de validation automatique, qui permettent de comparer les donn&eacute;es issues des syst&egrave;mes &agrave; des r&eacute;f&eacute;rentiels pr&eacute;&eacute;tablis. Certes, cette proc&eacute;dure a le d&eacute;faut de r&eacute;duire l&#39;appr&eacute;ciation &agrave; un jugement binaire, mais elle a le m&eacute;rite de pouvoir traiter l&rsquo;int&eacute;gralit&eacute; des r&eacute;sultats donn&eacute;s par les syst&egrave;mes (et non pas seulement un &eacute;chantillon) et reste toutefois un indicateur sur le comportement des syst&egrave;mes face &agrave; l&rsquo;ensemble du corpus. Dans d&#39;autres contextes, ces automates de validation automatique permettent &eacute;galement d&rsquo;approcher la valeur du rappel (taux des r&eacute;ponses pertinentes non identifi&eacute;es par le syst&egrave;me), une mesure impossible &agrave; calculer dans le cas d&#39;une validation manuelle.</p> <h3>L&rsquo;&eacute;valuation par r&eacute;f&eacute;rentiels, un d&eacute;bat toujours non achev&eacute;</h3> <p>Dans un programme d&rsquo;&eacute;valuation, le choix du domaine et des th&eacute;matiques ne peut &ecirc;tre arbitraire. Il faut s&rsquo;assurer de la disponibilit&eacute; d&#39;une part des ressources d&#39;entr&eacute;e ad&eacute;quates et des r&eacute;f&eacute;rentiels valid&eacute;s dans le domaine s&eacute;lectionn&eacute; (pour une &eacute;valuation quantitative) et d&#39;autre part des usagers &eacute;valuateurs familiaris&eacute;s avec le domaine s&eacute;lectionn&eacute; (pour une &eacute;valuation qualitative).</p> <p>Si le recours &agrave; des r&eacute;f&eacute;rentiels pr&eacute;&eacute;tablis est la d&eacute;marche la plus pl&eacute;biscit&eacute;e et la plus utilis&eacute;e pour d&eacute;velopper un cadre m&eacute;thodologique acceptable dans un programme d&rsquo;&eacute;valuation, un questionnement sur le statut de ces r&eacute;f&eacute;rentiels s&#39;impose.</p> <p>En &eacute;tudiant une des campagnes d&#39;&eacute;valuation (CESART) bas&eacute;e sur le principe des r&eacute;f&eacute;rentiels, on a constat&eacute; quelques dilemmes. Un syst&egrave;me peut &ecirc;tre proche d&#39;un r&eacute;f&eacute;rentiel plus que d&#39;un autre m&ecirc;me si les deux r&eacute;f&eacute;rentiels sont valides et &eacute;tablis pour un m&ecirc;me objectif. De m&ecirc;me, un syst&egrave;me peut &ecirc;tre jug&eacute; proche des r&eacute;f&eacute;rentiels d&#39;un domaine et non de ceux d&#39;un autre. Une des solutions consiste &agrave; diversifier les r&eacute;f&eacute;rentiels jusqu&#39;&agrave; l&#39;obtention d&#39;une saturation et d&#39;une stabilit&eacute; des r&eacute;sultats de syst&egrave;mes, mais cette solution reste tr&egrave;s co&ucirc;teuse pour sa mise en &oelig;uvre. Par exemple, lors de l&#39;&eacute;valuation de syst&egrave;mes de construction de ressources terminologiques, les organisateurs ont du faire face &agrave; des r&eacute;f&eacute;rentiels institutionnels extr&ecirc;mement diff&eacute;rents, qui recouvrent cependant un m&ecirc;me domaine qu&#39;est l&#39;&eacute;ducation, ceci est du probablement aux &quot;<em>variabilit&eacute;s des pratiques</em>&quot; dans la construction et validation des r&eacute;f&eacute;rentiels.</p> <p>Toutefois, la notion de &quot;r&eacute;f&eacute;rentiel&quot; reste encore en soi probl&eacute;matique. Est-il suffisant de proc&eacute;der par comparaison de r&eacute;sultats donn&eacute;s par des syst&egrave;mes automatiques &agrave; des r&eacute;f&eacute;rentiels &eacute;labor&eacute;s par des experts humains, pour en d&eacute;duire de la qualit&eacute; des syst&egrave;mes&nbsp;? Cette forme de comparaison n&rsquo;est-elle pas r&eacute;ductrice dans la mesure o&ugrave; les r&eacute;sultats des outils, souvent con&ccedil;us dans un but d&rsquo;assistance, sont ici injustement jug&eacute;s face &agrave; la qualit&eacute; pertinente d&rsquo;un travail humain valid&eacute;, particuli&egrave;rement dans le cas des pratiques professionnelles en information et documentation.</p> <p>Si la comparaison &agrave; un r&eacute;f&eacute;rentiel humain peut para&icirc;tre contestable dans la mesure o&ugrave; les syst&egrave;mes sont souvent mal class&eacute;s derri&egrave;re les listes de r&eacute;f&eacute;rence, un grand nombre de campagnes ont privil&eacute;gi&eacute; de proc&eacute;der autrement et de comparer les syst&egrave;mes uniquement entre eux sans aucun r&eacute;f&eacute;rentiel extrins&egrave;que. Cette &eacute;valuation inter-syst&egrave;mes permet de cr&eacute;er un r&eacute;f&eacute;rentiel de consensus &agrave; partir des r&eacute;sultats communs fournis par la majorit&eacute; des syst&egrave;mes (<em>vote majoritaire</em> ou <em>pooling method</em>), cette solution convient &eacute;galement &agrave; d&eacute;faut d&#39;un r&eacute;f&eacute;rentiel de notori&eacute;t&eacute; valide. Seulement, ledit r&eacute;f&eacute;rentiel commun post-&eacute;dit&eacute;, lui non plus, n&#39;est pas sans limite, dans la mesure o&ugrave; il d&eacute;savantage syst&eacute;matiquement les syst&egrave;mes &quot;<em>hors commun</em>&quot;. Tout syst&egrave;me qui, lui seul, donne des r&eacute;sultats pertinents sera sanctionn&eacute; s&#39;il est compar&eacute; &agrave; un r&eacute;f&eacute;rentiel construit par un vote majoritaire. Ce point est rest&eacute; probl&eacute;matique dans la plupart des programmes d&#39;&eacute;valuation.</p> <h3>Les experts, des &eacute;valuateurs usagers ou des usagers &eacute;valuateurs ?</h3> <p>Dans les programmes d&#39;&eacute;valuation, une attention particuli&egrave;re sur les connaissances scientifiques et comp&eacute;tences pratiques des juges est &agrave; observer soigneusement. Le juge doit faire preuve d&rsquo;une double comp&eacute;tence&nbsp;: dans le domaine et th&eacute;matiques du corpus d&rsquo;une part, et dans les pratiques et usages en rapport avec les applications du syst&egrave;me d&rsquo;autre part.</p> <p>Chaque juge est invit&eacute; &agrave; examiner un ensemble de r&eacute;sultats au maximum, afin de lui &eacute;viter une surcharge mentale qui n&rsquo;est pas sans incidence sur l&rsquo;&eacute;valuation. Et pour que l&rsquo;&eacute;valuation d&rsquo;un syst&egrave;me ne soit biais&eacute;e par la subjectivit&eacute; d&rsquo;un seul juge, il est envisag&eacute; de soumettre un m&ecirc;me syst&egrave;me aux regards de deux juges au minimum. Ce qui reste raisonnable pour pouvoir croiser les r&eacute;sultats des diff&eacute;rents syst&egrave;mes avec les diff&eacute;rentes appr&eacute;ciations des &eacute;valuateurs.</p> <p>Il est &eacute;vident qu&rsquo;une &eacute;valuation manuelle (jugement humain qualitatif) reste plus fiable dans la description des performances ou des limites des syst&egrave;mes, mais constitue toutefois un r&eacute;f&eacute;rentiel qui ne garantit malheureusement pas la reproductibilit&eacute; de l&#39;exp&eacute;rience et par l&agrave; l&rsquo;obtention de r&eacute;sultats objectifs (Daille,&nbsp;2002), il ne permet pas non plus d&rsquo;&eacute;valuer le taux de silence dans certaines applications.</p> <p>Enfin, des questions subsistent. Comment prendre en compte l&#39;&eacute;cart des <em>jugements cognitifs </em>voire <em>&eacute;motionnels</em> entre deux postures distinctes, celle d&#39;un &eacute;valuateur dans le r&ocirc;le d&#39;usager potentiel et celle d&#39;un usager charg&eacute; d&#39;assumer la fonction d&#39;&eacute;valuateur ? Comment s&#39;assurer de la stabilit&eacute; des jugements successifs d&#39;un m&ecirc;me sujet ? Dans un protocole d&#39;&eacute;valuation bas&eacute; sur une expertise humaine, il est primordial d&#39;analyser l&#39;impact de subjectivit&eacute; des experts et de corr&eacute;ler leurs appr&eacute;ciations pour ne pas biaiser le processus. Pour cela, la plupart des actions et campagnes d&#39;&eacute;valuation ont eu recours au calcul des fameuses valeurs de corr&eacute;lation telles que le coefficient de kappa, l&#39;indice de Pearson ou le test de Khi2.</p> <h3>Les m&eacute;triques ou l&#39;approche quantitative, une solution qui pose probl&egrave;me</h3> <p>Dans plusieurs campagnes d&rsquo;&eacute;valuation, l&rsquo;usage de m&eacute;triques comme approche quantitative est tr&egrave;s courant et se pr&eacute;sente comme une d&eacute;marche scientifique rigoureuse, avec des outils de jugement et d&rsquo;appr&eacute;ciation cadr&eacute;s et normalis&eacute;s. Cependant, il est tr&egrave;s rare dans les recherches sur l&#39;&eacute;valuation de ne pas voir surgir syst&eacute;matiquement le d&eacute;bat &eacute;pist&eacute;mologique entre les d&eacute;fenseurs et les opposants de l&#39;approche quantitative.</p> <p>D&#39;apr&egrave;s les d&eacute;fenseurs de l&#39;&eacute;valuation quantitative, celle-ci permet de r&eacute;pondre au besoin croissant d&#39;applications, manifest&eacute; par un foisonnement de m&eacute;thodes et d&#39;outils et devant lesquels l&#39;usager &eacute;prouve ses difficult&eacute;s d&#39;&eacute;valuation et de s&eacute;lection de mani&egrave;re objective. De leur c&ocirc;t&eacute;, des opposants &agrave; l&rsquo;approche quantitative estiment g&eacute;n&eacute;ralement que l&rsquo;&eacute;valuation des syst&egrave;mes est par essence de nature qualitative et que le versant quantitatif est n&eacute;cessairement limit&eacute; au cadre d&#39;une validation plut&ocirc;t qu&rsquo;une &eacute;valuation. Si les arguments des deux camps sont recevables et traduisent deux approches compl&eacute;mentaires d&rsquo;une m&ecirc;me probl&eacute;matique, il est cependant important de noter que, gr&acirc;ce aux campagnes d&rsquo;&eacute;valuation, l&rsquo;approche quantitative de l&#39;&eacute;valuation a non seulement permis de faire avancer l&rsquo;&eacute;tat de l&rsquo;art de mani&egrave;re significative, mais a &eacute;galement favoris&eacute; l&rsquo;expansion du champ d&rsquo;application des m&eacute;thodes &agrave; base linguistique (Adda et al., 1999).</p> <p>Dans une des campagnes &eacute;tudi&eacute;es (CESART), une des solutions prudentes pour att&eacute;nuer les limites d&#39;une &eacute;valuation quantitative, a &eacute;t&eacute; de demander &agrave; chaque juge d&#39;&eacute;tablir un classement argument&eacute; de l&rsquo;ensemble des syst&egrave;mes expertis&eacute;s selon certains crit&egrave;res. Cet ordonnancement a permis de v&eacute;rifier des questions sous-jacentes :</p> <ul> <li>Existe-t-il un accord inter-juges ? une diff&eacute;rence significative dans l&rsquo;ordonnancement des syst&egrave;mes implique une divergence dans les regards des juges. Cette diff&eacute;rence est-elle due au statut de juge responsable de l&#39;expertise, doit-il &ecirc;tre l&rsquo;utilisateur final ou le sp&eacute;cialiste du domaine ?</li> <li>S&#39;il y a un accord entre la majorit&eacute; des juges, l&rsquo;appr&eacute;ciation globale donn&eacute;e par les experts est-elle en concordance avec les mesures calcul&eacute;es de mani&egrave;re algorithmique&nbsp;?</li> </ul> <h3>L&#39;&eacute;valuation orient&eacute;e syst&egrave;me, orient&eacute;e usage</h3> <p>S&#39;il y a un d&eacute;nominateur commun &agrave; relever des diff&eacute;rents programmes d&#39;&eacute;valuation, il sera la r&eacute;flexion permanente d&#39;innover dans des m&eacute;triques alternatives &agrave; celles commun&eacute;ment utilis&eacute;es depuis des d&eacute;cennies (Nakache et Metais, 2005). Dans la plupart des travaux, l&#39;&eacute;valuation est orient&eacute;e syst&egrave;me (<em>Mod&egrave;le Cranfield</em>) dans le sens o&ugrave; elle est d&eacute;pendante d&#39;une m&eacute;trique qui calcule l&#39;&eacute;cart entre les productions des syst&egrave;mes et un r&eacute;f&eacute;rentiel pr&eacute;&eacute;tabli ou parfois post &eacute;dit&eacute; dans le cas des <em>pooling method</em>. Or, la pertinence &eacute;tant une fonction r&eacute;troactive, instable et &eacute;volutive, mais aucunement binaire, il devient l&eacute;gitime de se demander comment des m&eacute;triques peuvent s&#39;y pr&ecirc;ter pour r&eacute;pondre &agrave; la satisfaction informationnelle des usagers et non &agrave; des consid&eacute;rations calculatoires des &eacute;valuateurs. Des recherches, notamment en sciences de l&#39;information, ont montr&eacute; les limites m&eacute;thodologiques et th&eacute;oriques de ce mod&egrave;le et ont privil&eacute;gi&eacute; un changement de paradigme et une &eacute;valuation orient&eacute;e usager (Chaudiron, 2002). Enfin, n&#39;est-il pas int&eacute;ressant d&#39;orienter la r&eacute;flexion vers un troisi&egrave;me paradigme, celui de l&#39;<em>&eacute;valuation participative</em> (ou l&#39;<em>&eacute;valuation de masse</em> ou <em>crowdrating</em>) avec ses propres th&eacute;ories, m&eacute;thodologies et outils (popularit&eacute;, communaut&eacute;&hellip;)&nbsp;(Reber, 2013) ?</p> <p>Pour des raisons de co&ucirc;t et de simplification, la plupart des campagnes d&#39;&eacute;valuation ont &eacute;t&eacute; orient&eacute;es syst&egrave;mes et men&eacute;es en mode <em>in&nbsp;vitro</em>, les interactions entre l&#39;usager potentiel et son environnement naturel ont &eacute;t&eacute; d&eacute;laiss&eacute;es de l&#39;&eacute;tude. Toutefois, la campagne INFILE sur le filtrage de l&#39;information dans une perspective de veille, a &eacute;t&eacute; tr&egrave;s prudente sur cette question et a int&eacute;gr&eacute; dans son protocole un maximum de v&eacute;rit&eacute;s-terrain sur les pratiques de veille afin d&#39;&ecirc;tre le plus proche des conditions naturelles (mode <em>in&nbsp;vivo</em>).</p> <h2>CONCLUSION</h2> <p>Finalement, le traitement automatique de l&#39;information rel&egrave;ve &agrave; la fois de la d&eacute;marche technologique et de la d&eacute;marche scientifique. La perception de l&#39;&eacute;valuation dans ce domaine varie consid&eacute;rablement entre les d&eacute;veloppeurs, les industriels, les chercheurs et les usagers potentiels&hellip; L&#39;&eacute;valuation des syst&egrave;mes informatiques ne doit plus &ecirc;tre per&ccedil;ue seulement comme outil qui contribue &agrave; d&eacute;velopper le volet technologique mais aussi en tant qu&#39;un indicateur de progr&egrave;s de la recherche scientifique. L&#39;observation des dispositifs d&#39;&eacute;valuation, l&#39;analyse des pratiques d&#39;&eacute;valuation et l&#39;&eacute;tude de cadres m&eacute;thodologiques d&#39;&eacute;valuation ouvrent de nouvelles perspectives de recherche scientifique dans le champ des sciences de l&#39;information et de la communication, qu&#39;on peut nommer abusivement &quot;<em>l&#39;&eacute;valuation de l&#39;&eacute;valuation</em>&quot;.</p> <p>Au regard de la place primordiale des Technologies de l&#39;Information et de la Communication dans les travaux de recherche en SIC, la question de leur &eacute;valuation devient alors, elle aussi, primordiale. Il ne serait pas alors absurde de conclure que le probl&egrave;me &eacute;pist&eacute;mologique central de la question &eacute;tudi&eacute;e SIC est comment approcher les interactions usager-syst&egrave;me dans un paradigme d&#39;&eacute;valuation et introduire des mod&egrave;les non contestables qui font r&eacute;f&eacute;rence &agrave; l&#39;usage et aux pratiques d&#39;une part et en concordance &agrave; des r&eacute;f&eacute;rentiels et m&eacute;triques d&#39;autre part.</p> <p>Ce bilan &eacute;pist&eacute;mologique des recherches sur l&rsquo;&eacute;valuation des syst&egrave;mes de traitement automatique de l&#39;information, laisse comprendre qu&#39;en sciences de l&#39;information aussi, les relations entre th&eacute;orie et pratique en mati&egrave;re d&rsquo;&eacute;valuation demeurent une aporie opposant et reliant, &agrave; la fois, le <em>syst&egrave;me technicien</em>, priv&eacute; de sens et la recherche permanente d&rsquo;une th&eacute;orie, g&eacute;n&eacute;ratrice de sens (Figari, 2013&nbsp;; Rodriguez-Pab&oacute;n, 2005).</p> <h2>R&Eacute;F&Eacute;RENCES BIBLIOGRAPHIQUES</h2> <p>Adda, G., Mariani, J., Paroubek, P., Rajman, M., Lecomte, J. (1999). L&#39;action GRACE d&#39;&eacute;valuation de l&#39;assignation des parties du discours pour le fran&ccedil;ais. <em>Revue Langues</em>, Vol. 2, No. 2, 119-129.</p> <p>Cavazza, M. (1993). <em>M&eacute;thodes d&#39;&eacute;valuation des logiciels incorporant des technologies d&#39;informatique linguistique</em>. Paris, Rapport MRE-DIST.</p> <p>Chaudiron, S., Ihadjadene, M. (2002). Quelle place pour l&rsquo;usager dans l&rsquo;&eacute;valuation des SRI&nbsp;? In <em>: Recherches r&eacute;centes en sciences de l&rsquo;information : Convergences et dynamiques</em>, 2002, Toulouse.</p> <p>Daille, B. (2002). <em>D&eacute;couvertes linguistiques en corpus</em>. M&eacute;moire d&rsquo;habilitation &agrave; diriger des recherches en informatique, Universit&eacute; de Nantes.</p> <p>Figari, G. (2013). L&rsquo;&eacute;valuation entre &laquo; technicit&eacute; &raquo; et &laquo; th&eacute;orisation &raquo; ? <em>Mesure et &eacute;valuation en &eacute;ducation, </em>vol. 36 (3).</p> <p>Gu&eacute;rin-Schneider, L., Tsanga Tabi, M. (2017). L&rsquo;Analyse du Cycle de Vie, nouvel outil d&rsquo;&eacute;valuation environnementale &agrave; l&rsquo;appui des politiques publiques locales&nbsp;: Quelle appropriation par les services d&rsquo;assainissement&nbsp;? In : <em>Gestion et management public</em>, volume 5 / 4(2), 61-83.</p> <p>Jorro, A., Droyer, N. (dir.) (2019). <em>L&rsquo;&eacute;valuation, levier pour l&rsquo;enseignement et la formation</em>. De&nbsp;Boeck Sup&eacute;rieur, 2019.</p> <p>Le Priol, F. (2000). <em>Extraction et capitalisation automatiques de connaissances &agrave; partir de documents textuels</em>. Paris, Th&egrave;se de doctorat, Universit&eacute; Paris-Sorbonne.</p> <p>Michel, C., Rouissi, S. (2003). G&eacute;n&eacute;ration de documents d&#39;&eacute;valuation des connaissances pour l&#39;e-learning. In <em>6&egrave;me Colloque International sur le Document &Eacute;lectronique (CIDE6)</em>, Caen, 2003.</p> <p>Nakache, D., Metais, E. (2005). &Eacute;valuation : nouvelle approche avec juges. In <em>Congr&egrave;s Informatique des organisations et syst&egrave;mes d&#39;information et de d&eacute;cision (INFORSID&#39;05)</em>, Grenoble, 2005.</p> <p>Organisation internationale de normalisation, (1999). <em>Technologies de l&#39;information - &Eacute;valuation de produits logiciels - Partie 1 : Aper&ccedil;u g&eacute;n&eacute;ral</em>. ISO/IEC 14598-1:1999.</p> <p>Paroubek, P., Chaudiron, S., Hirschman, L. (2007). Principles of Evaluation in Natural Language Processing. <em>Revue Traitement Automatique des Langues (TAL)</em>, vol. 48, n&deg; 1.</p> <p>Pincemin, B. (1999). Construire et utiliser un corpus&nbsp;: le point de vue d&rsquo;une s&eacute;mantique textuelle interpr&eacute;tative. In Condamines, A., P&eacute;ry-Woodley M.-P., et Fabre C. (dir), <em>Atelier Corpus et TAL&nbsp;: pour une r&eacute;flexion m&eacute;thodologique (TALN&nbsp;99)</em>, Corse.</p> <p>Popescu-Belis, A. (2007). Le r&ocirc;le des m&eacute;triques d&#39;&eacute;valuation dans le processus de recherche en TAL. <em>Revue Traitement Automatique des Langues (TAL)</em>, vol. 48, n&deg; 1.</p> <p>Reber, B. (2013). &Eacute;valuation participative des technologies. In Casillo, I. et al. &nbsp;D. (dir.), <em>Dictionnaire critique et interdisciplinaire de la participation</em>. Paris, GIS D&eacute;mocratie et Participation, 2013.</p> <p>Reider, Harry R. (2000). <em>Benchmarking strategies a tool for profit improvement</em>. New York : John Wiley, 2000.</p> <p>Rodriguez-Pab&oacute;n, O. (2005). <em>Cadre th&eacute;orique pour l&rsquo;&eacute;valuation des infrastructures d&rsquo;information g&eacute;o-spatiale</em>. Universit&eacute; Laval. Th&egrave;se de doctorat, 2005.</p> <p>Salton, G., McGill, M. (1983). <em>Introduction to Modern Information Retrieval</em>. Coll. Computer Science S., McGraw-Hill, 1983.</p> <p>Sparck-Jones, K., Gallier, J.R. (1996). <em>Evaluating Natural Language Processing Systems: An Analysis and Review</em>. Springer, Berlin, 1996.</p> <p>Timimi, I. (2006). L&rsquo;&eacute;valuation des syst&egrave;mes d&rsquo;acquisition d&rsquo;outils de terminologie&nbsp;: nouvelles m&eacute;triques, nouvelles pratiques. <em>Colloque Jadt&rsquo;06</em>, Besan&ccedil;on, avril 2006.</p> <p>Van Rijsbergen, C.-J. (1979). <em>Information Retrieval, 2nd edition</em>. Butterworth-Heinemann.</p>