<p>INTRODUCTION</p> <p>Parce qu&#39;elle peut servir la planification ou l&#39;aide au d&eacute;veloppement, la certification ou la mise en conformit&eacute;, la gratification ou la promotion&hellip; l&#39;&eacute;valuation a toujours suscit&eacute; un int&eacute;r&ecirc;t majeur de la part des industriels et des chercheurs dans diff&eacute;rents domaines professionnels et disciplines scientifiques.</p> <p>Selon des contextes, sa d&eacute;nomination est assimil&eacute;e parfois &agrave; ses finalit&eacute;s (valorisation, validation, notation, lab&eacute;lisation, qualim&eacute;trie, webom&eacute;trie&hellip;) et sa mod&eacute;lisation s&#39;est construite autour de supports aussi vari&eacute;s (audit, benchmark, tableau de bord, matrice swot, diagramme de Gantt&hellip;) (Reider, 2000).</p> <p>Ses concepts et param&egrave;tres sont associ&eacute;s &agrave; un r&eacute;seau s&eacute;mantique &eacute;tendu (performance, pertinence, distance, r&eacute;f&eacute;rentiel, m&eacute;trique, besoin informationnel) g&eacute;n&eacute;rant ainsi des dichotomies et une querelle de m&eacute;thodes en opposition (quantitative/qualitative, automatique/manuelle, verticale/horizontale, bo&icirc;te transparente/bo&icirc;te noire, ex-ante/ex-post, intrants/extrants, interface dynamique/ &agrave; interface statique, orient&eacute;e syst&egrave;me/orient&eacute;e usager&hellip;).</p> <p>Quand un syst&egrave;me est suppos&eacute; &agrave; partir de son traitement d&#39;information servir &agrave; des applications et des usages pr&eacute;conis&eacute;s, il devient indispensable de v&eacute;rifier par une &eacute;valuation la l&eacute;gitimit&eacute; et l&#39;exactitude de cette pr&eacute;conisation. L&#39;&eacute;valuation devient alors comme une proc&eacute;dure pour juger un ou plusieurs attributs&nbsp;: l&#39;ad&eacute;quation du syst&egrave;me &agrave; l&#39;usage pr&eacute;conis&eacute;, la conformit&eacute; de ses r&eacute;sultats par rapports aux attentes, son taux de progression vers le but d&eacute;termin&eacute; &hellip; et manifestement, c&#39;est dans la mod&eacute;lisation de cette proc&eacute;dure et dans son cadrage m&eacute;thodologique o&ugrave; r&eacute;side toute la difficult&eacute; de l&#39;&eacute;valuation aussi bien sur le plan th&eacute;orique que pratique.</p> <p>Si l&#39;&eacute;valuation en tant que pratique est massivement exerc&eacute;e dans le milieu universitaire, en tant qu&#39;objet d&#39;&eacute;tude elle n&#39;a pas eu le m&ecirc;me m&eacute;rite. En sciences de l&#39;information et de la communication (SIC), peu nombreux sont les travaux de recherche qui se sont int&eacute;ress&eacute;s &agrave; l&#39;objet de l&#39;&eacute;valuation des syst&egrave;mes d&#39;information et &agrave; fortiori des syst&egrave;mes de traitement automatique de l&#39;information. Paradoxalement, on constate dans l&#39;histoire des sciences de l&#39;information que la recherche documentaire est consid&eacute;r&eacute;e come un des domaines pionniers o&ugrave; se sont d&eacute;velopp&eacute;es les premi&egrave;res r&eacute;flexions atour de l&#39;&eacute;valuation quantitative, des r&eacute;flexions qui ont &eacute;t&eacute; &agrave; l&#39;origine des m&eacute;triques traditionnelles (Rappel et Pr&eacute;cision) et de leur moyenne harmonique F-measure (Van Rijsbergen 1979 ; Salton &amp; Mc Gill 1983). Aujourd&#39;hui la volum&eacute;trie a &eacute;volu&eacute;, les besoins se sont diversifi&eacute;s et les probl&eacute;matiques se sont complexifi&eacute;es, mais l&#39;on conserve encore les m&ecirc;mes indicateurs de r&eacute;f&eacute;rence depuis des d&eacute;cennies.</p> <p>Dans cet article centr&eacute; sur l&#39;&eacute;valuation en tant qu&#39;objet d&#39;&eacute;tude, nous essayons dans une premi&egrave;re section de recadrer ce concept &agrave; travers ses diff&eacute;rents mod&egrave;les et attributs, et particuli&egrave;rement dans les contextes info-documentaires. Ensuite, dans une deuxi&egrave;me section consid&eacute;r&eacute;e comme terrain exp&eacute;rimental, nous pr&eacute;sentons le fonctionnement et l&#39;apport d&#39;un ensemble de syst&egrave;mes de traitement d&#39;information (&agrave; base linguistique) en pr&eacute;sentant certains programmes et actions d&#39;&eacute;valuation, qui leur ont &eacute;t&eacute; consacr&eacute;es au niveau national et international. Enfin, une derni&egrave;re section est consacr&eacute;e aux discussions et d&eacute;bats autour de l&#39;&eacute;valuation et son cadrage m&eacute;thodologique.</p> <p>L&#39;&Eacute;VALUATION&hellip; DES CONCEPTS ET DES M&Eacute;THODES</p> <p>Les SIC et l&#39;&eacute;valuation des TIC</p> <p>Dans une perspective d&#39;analyse et d&#39;expertise, et contrairement aux m&eacute;thodologies classiques de recueil et d&#39;analyse de donn&eacute;es telles que l&#39;analyse de traces, l&#39;entretien, le questionnaire, l&#39;observation&hellip;, l&#39;&eacute;valuation dans le cas des syst&egrave;mes de traitement d&#39;information pr&eacute;sente un travail de recherche multidisciplinaire assez pr&eacute;occupant. Le manque d&#39;une normalisation consensuelle additionn&eacute; &agrave; la difficult&eacute; d&#39;une mod&eacute;lisation rend l&rsquo;&eacute;valuation comme objet de recherche complexe et tr&egrave;s discutable dans les diff&eacute;rents champs disciplinaires, tels que les sciences &eacute;conomiques et sociales, sciences de gestion, sciences politiques, sciences de l&#39;&eacute;ducation, sciences du langage, informatique et math&eacute;matiques et davantage dans les sciences de l&#39;information et de la communication...</p> <p>Situ&eacute;e au carrefour de ces diff&eacute;rents champs professionnels et disciplinaires, l&#39;&eacute;valuation est souvent assimil&eacute;e &agrave; ses finalit&eacute;s, elle peut avoir le sens de valorisation dans les activit&eacute;s &eacute;conomiques et marketing ; le sens de certification dans des activit&eacute;s d&#39;assurance qualit&eacute;&nbsp;; le sens de notation, en DRH ou plus g&eacute;n&eacute;ralement pour tout domaine ayant recours &agrave; une &eacute;chelle ou un r&eacute;f&eacute;rentiel de cotation. Ces concepts et d&#39;autres sont assez r&eacute;currents dans les travaux de recherche sur l&#39;&eacute;valuation, aussi bien sur le plan m&eacute;thodologique qu&#39;empirique.</p> <p>En sciences de gestion, on recourt &agrave; une &eacute;valuation multicrit&egrave;re (ACV) qui a pour ambition de quantifier l&rsquo;ensemble des impacts d&rsquo;activit&eacute;s humaines sur l&rsquo;environnement en d&eacute;terminant de mani&egrave;re syst&eacute;matique les consommations de ressources et les &eacute;missions de substances li&eacute;es &agrave; la production d&rsquo;un bien ou d&rsquo;un service (Gu&eacute;rin-Schneider &amp; Tabi, 2017).</p> <p>Dans le domaine des ressources humaines, l&#39;&eacute;valuation souvent individualis&eacute;e vise &agrave; mesurer les comp&eacute;tences et performances du personnel dans le cadre d&#39;une gestion de carri&egrave;res professionnelles ou d&#39;un plan de formation. Le cadre m&eacute;thodologique s&#39;appuie g&eacute;n&eacute;ralement sur les m&eacute;thodes et techniques couramment utilis&eacute;es en sciences &eacute;conomiques et sociales (questionnaire, entretien, observation&hellip;)</p> <p>En sciences de l&#39;&eacute;ducation, l&#39;&eacute;valuation a toujours eu une place pr&eacute;dominante, notamment sous l&#39;effet de la pr&eacute;gnance du digital et des innovations p&eacute;dagogiques. Dans leurs travaux de recherche sur les pratiques de l&#39;&eacute;valuation et aussi sur l&rsquo;&eacute;volution de la recherche en &eacute;valuation, Jorro et Droyer (2019) se sont int&eacute;ress&eacute;s aux formes &eacute;valuatives en usage avec ses enjeux nouveaux et ses obstacles r&eacute;currents.</p> <p>Si les TIC en tant qu&#39;objets d&rsquo;&eacute;tude ont suscit&eacute; constamment un int&eacute;r&ecirc;t primordial en SIC, les chercheurs en sciences de l&rsquo;information et du document, et encore moins en sciences de la communication, ont tr&egrave;s peu explor&eacute; l&rsquo;&eacute;valuation de ces technologies dans leurs pr&eacute;occupations scientifiques. Au mieux, ils la survolent bri&egrave;vement, quand ils s&#39;int&eacute;ressent dans leurs travaux de recherche &agrave; l&rsquo;analyse des usages, des pratiques, des dispositifs, des processus de ces TIC.</p> <p>Dans une logique interdisciplinaire &agrave; laquelle notre discipline SIC s&rsquo;ouvre par tradition, il nous a sembl&eacute; pertinent de consid&eacute;rer les travaux r&eacute;alis&eacute;s sur l&rsquo;&eacute;valuation par des disciplines connexes et d&#39;en croiser les approches et mod&egrave;les. Si l&#39;&eacute;valuation des syst&egrave;mes en sciences exp&eacute;rimentales a suscit&eacute; des int&eacute;r&ecirc;ts scientifiques dirig&eacute;s par les soucis de la conception et du d&eacute;veloppement, en SIC il a fallu r&eacute;interroger l&#39;&eacute;valuation en lui donnant d&#39;autres dimensions scientifiques, tant sur le plan m&eacute;thodologique en s&#39;int&eacute;ressant &agrave; la nature et &agrave; la pertinence des crit&egrave;res d&rsquo;&eacute;valuation et aux dispositifs mis en &oelig;uvre que sur le plan th&eacute;orique et &eacute;pist&eacute;mologiques en requestionnant les notions de m&eacute;trique, de pertinence, de satisfaction d&rsquo;un besoin informationnel et le dilemme entre l&#39;&eacute;valuateur usager et l&#39;usager &eacute;valuateur.</p> <p>Dichotomies de m&eacute;thodes</p> <p>G&eacute;n&eacute;ralement, l&#39;&eacute;valuation d&#39;un syst&egrave;me est l&#39;appr&eacute;ciation de ses performances sur la base d&#39;un besoin informationnel &agrave; satisfaire, &agrave; partir de ressources intrins&egrave;ques ou extrins&egrave;ques mises &agrave; disposition&hellip; la diversit&eacute; des besoins et des ressources est &agrave; l&#39;origine d&#39;une typologie des formes d&#39;&eacute;valuation.</p> <p>Dans une &eacute;valuation dite de progression (verticale), un syst&egrave;me est compar&eacute; &agrave; ses versions ant&eacute;rieures pour une t&acirc;che d&eacute;termin&eacute;e, en vue d&#39;une &eacute;tude diachronique de ses performances. C&#39;est une d&eacute;marche tr&egrave;s courante dans les activit&eacute;s de conception et de d&eacute;veloppement, et inscrite dans les &eacute;tudes de g&eacute;nie informatique&hellip; &Agrave; l&#39;oppos&eacute;, une &eacute;valuation dite d&#39;appariement (transversale) consiste &agrave; comparer les performances d&#39;un syst&egrave;me par rapport &agrave; d&#39;autres con&ccedil;us pour des applications similaires. Cette d&eacute;marche est tr&egrave;s courante dans les &eacute;tudes de benchmarking et de veille concurrentielle et technologique. Il se peut aussi que cet appariement transversal ne soit pas inter-syst&egrave;mes mais effectu&eacute; plut&ocirc;t par rapport &agrave; des r&eacute;f&eacute;rentiels pr&eacute;d&eacute;finis, &eacute;tablis manuellement ou autrement, mais surtout valid&eacute;s.</p> <p>Dans une autre optique d&#39;&eacute;valuation, dite de diagnostic (bo&icirc;te transparente ou glass&nbsp;box), l&#39;usager cherche &agrave; d&eacute;terminer &agrave; partir d&#39;une s&eacute;rie de tests les sources de performance ou d&#39;imperfection d&#39;un syst&egrave;me par rapport &agrave; une t&acirc;che pr&eacute;cise. Dans cette d&eacute;marche, minutieuse et complexe, l&#39;&eacute;valuation ne concerne pas le syst&egrave;me dans sa globalit&eacute; mais seulement certains modules (de pr&eacute;traitements) intrins&egrave;ques &eacute;valu&eacute;s parfois s&eacute;par&eacute;ment. Cette d&eacute;marche, elle aussi, est orient&eacute;e conception et d&eacute;veloppement dans la mesure o&ugrave; ces tests de diagnostic permettent de r&eacute;viser et d&eacute;velopper par progression les performances d&#39;un syst&egrave;me &agrave; partir d&#39;une &eacute;valuation de ses composantes. &Agrave; l&#39;oppos&eacute;, une &eacute;valuation peut &ecirc;tre men&eacute;e sur le concept de la bo&icirc;te noire (black&nbsp;box). Elle consiste &agrave; faire abstraction sur les composantes intrins&egrave;ques du syst&egrave;me, et ne s&#39;int&eacute;resse qu&#39;au jugement des performances globales du syst&egrave;me, elle se focalise uniquement sur les ressources mises en entr&eacute;e du syst&egrave;me (Input) et sur les donn&eacute;es obtenues en sortie (Output). Les pr&eacute;traitements des donn&eacute;es effectu&eacute;s par les diff&eacute;rents modules du syst&egrave;me ne font l&#39;objet d&#39;aucune &eacute;valuation dans cette d&eacute;marche. Pour des raisons expliqu&eacute;es ult&eacute;rieurement, l&#39;&eacute;valuation selon le principe de la bo&icirc;te noire est celle adopt&eacute;e unanimement par la plupart des campagnes d&#39;&eacute;valuation.</p> <p>Concernant l&#39;interactivit&eacute; de l&#39;usager, les &eacute;tudes d&#39;&eacute;valuation lui r&eacute;servent une place consid&eacute;rable. L&#39;&eacute;valuation &agrave; interface statique consiste &agrave; juger les performances d&#39;un syst&egrave;me, sans faire appel &agrave; des interventions humaines ou &agrave; des enrichissements ext&eacute;rieurs. A l&#39;inverse, l&#39;&eacute;valuation &agrave; interface dynamique permet d&#39;&eacute;tudier la valeur ajout&eacute;e et l&#39;impact des ressources d&#39;enrichissement introduites dans le syst&egrave;me (ex. bases de connaissances ou m&eacute;moires de traduction) ou des choix d&#39;orientation ordonn&eacute;s par l&#39;usager (ex. &agrave; des fins d&#39;apprentissage automatique).</p> <p>Une &eacute;valuation peut &ecirc;tre quantitative, exprim&eacute;e par des m&eacute;triques qui calculent le degr&eacute; de similarit&eacute; entre les donn&eacute;es fournies en sortie par le syst&egrave;me et les r&eacute;f&eacute;rentiels pr&eacute;&eacute;tablis. &Agrave; l&#39;oppos&eacute;, une &eacute;valuation qualitative consiste &agrave; analyser et annoter les performances des syst&egrave;mes sans forc&eacute;ment les exprimer en notation num&eacute;rique.</p> <p>Parall&egrave;lement &agrave; cette derni&egrave;re dichotomie, on trouve aussi l&#39;&eacute;valuation manuelle versus automatique selon les usages. Si l&#39;expertise manuelle est consid&eacute;r&eacute;e comme un dispositif valide et fiable dans les actions et programmes d&rsquo;&eacute;valuation, la subjectivit&eacute; des experts, leur niveau de connaissances et de pratiques, et leur degr&eacute; de tol&eacute;rance sont souvent sources de questionnements et de d&eacute;bats dans les paradigmes d&#39;&eacute;valuation. En revanche, la volum&eacute;trie des r&eacute;sultats fournis par les syst&egrave;mes pour certaines applications contraint les experts &agrave; recourir parfois &agrave; une &eacute;valuation automatique, outill&eacute;e par un algorithme d&#39;appariement des donn&eacute;es fournies par le syst&egrave;me &agrave; des r&eacute;f&eacute;rentiels pr&eacute;&eacute;tablis et stables. Les limites ou plut&ocirc;t la compl&eacute;mentarit&eacute; des deux approches peuvent justifier le recours &agrave; une solution hybride, qui permettrait en plus de v&eacute;rifier la fiabilit&eacute; et la cr&eacute;dibilit&eacute; des m&eacute;triques adopt&eacute;es et mises en &oelig;uvre dans le protocole (Timimi, 2006).</p> <p>&Eacute;valuation et tendances des protocoles</p> <p>Face &agrave; ces dichotomies de processus et d&#39;outils, l&#39;&eacute;valuation reste une fonction modulable dans la mesure o&ugrave; les m&eacute;thodes ne sont pas forc&eacute;ment cloisonn&eacute;es ou exclusives mais peuvent &ecirc;tre combin&eacute;es et adapt&eacute;es selon les enjeux et les contextes des actions d&#39;&eacute;valuation d&#39;une part et la typologie et contraintes des syst&egrave;mes participant d&#39;autre part. Dans la majorit&eacute; des protocoles &eacute;tudi&eacute;s, on rel&egrave;ve des &eacute;valuations multimodales (ex. horizontale, &agrave; interface dynamique, quantitative et selon le principe de la bo&icirc;te noire&hellip;).</p> <p>G&eacute;n&eacute;ralement, dans la plupart des protocoles d&#39;&eacute;valuation &eacute;tudi&eacute;s, on constate que l&#39;&eacute;valuation verticale (de progression) est abandonn&eacute;e, dans la mesure o&ugrave; il est difficile aux organisateurs de disposer des syst&egrave;mes et encore moins de leurs versions ant&eacute;rieures pour pouvoir &eacute;tudier l&#39;&eacute;volution diachronique des performances. L&#39;&eacute;valuation sur le principe de la bo&icirc;te transparente (de diagnostic), elle aussi, est moins utilis&eacute;e car il s&#39;agit d&#39;un dispositif difficile &agrave; mettre en place, il requiert une connaissance des processus internes et des fondements th&eacute;oriques de chacun des syst&egrave;mes participant. Il r&eacute;clame l&#39;acc&egrave;s &agrave; l&#39;architecture et au code du d&eacute;veloppement du syst&egrave;me, ce qui risque d&rsquo;&ecirc;tre compromettant lorsque l&#39;&eacute;valuateur est un intervenant ext&eacute;rieur (Cavazza, 1993). Cette distinction semble justifi&eacute;e vu que ces m&eacute;thodes abandonn&eacute;es sont orient&eacute;es &quot;conception&quot; ce qui n&#39;est pas l&#39;objectif principal des campagnes d&#39;&eacute;valuation et rel&egrave;ve plut&ocirc;t des services de d&eacute;veloppement et de maintenance propres &agrave; chaque syst&egrave;me.</p> <p>&Agrave; l&#39;oppos&eacute;, le principe de l&#39;&eacute;valuation bo&icirc;te noire reste une pratique tr&egrave;s courante dans la plupart des protocoles d&#39;&eacute;valuation &eacute;tudi&eacute;s. Ce choix est justifi&eacute; du fait qu&#39;il s&#39;agit d&#39;un dispositif d&#39;expertise facile &agrave; mettre en &oelig;uvre, unanimement accept&eacute; dans un consortium compos&eacute; de chercheurs universitaires, d&#39;industriels de syst&egrave;mes et d&#39;usagers potentiels, et pose le moins de probl&egrave;mes m&eacute;thodologiques et d&#39;obligations empiriques. Sans n&eacute;cessiter l&#39;acc&egrave;s au fonctionnement interne des syst&egrave;mes, ce choix permet une &eacute;tude comparative malgr&eacute; la diff&eacute;rence des architectures et des pr&eacute;traitements employ&eacute;s. (Cavazza, 1993 ; Sparck-Jones et Gallier, 1996).</p> <p>EVALUATION D&#39;OUTILS &Agrave; BASE LINGUISTIQUE, CAMPAGNES</p> <p>Campagnes d&#39;&eacute;valuation : &Eacute;tat des lieux</p> <p>Peu connue comme activit&eacute; normalis&eacute;e, l&#39;&eacute;valuation des syst&egrave;mes de traitement automatique d&#39;information est rest&eacute;e au centre des pr&eacute;occupations d&#39;organisations institutionnelles, politiques, industrielles et scientifiques. Plusieurs programmes et actions d&#39;&eacute;valuation ont &eacute;t&eacute; organis&eacute;s au niveau national et international et donn&eacute; lieu &agrave; des publications et congr&egrave;s d&eacute;di&eacute;s exclusivement &agrave; l&#39;&eacute;valuation (EACL, ACL, LREC). La plupart de ces actions se sont int&eacute;ress&eacute;es principalement aux syst&egrave;mes de traitement automatique de l&#39;information textuelle (&eacute;crite ou orale).</p> <p>Le traitement de l&#39;information textuelle, comme d&#39;ailleurs celui de l&#39;information imag&eacute;e, compte un grand nombre de syst&egrave;mes, con&ccedil;us majoritairement sur des bases linguistiques et/ou statistiques et sous une architecture multi-agents (SMA). &Agrave; partir d&#39;une mod&eacute;lisation des processus langagiers, les syst&egrave;mes sont d&eacute;velopp&eacute;s dans une perspective d&#39;automatiser des pratiques et des activit&eacute;s informationnelles et documentaires, prises en charge habituellement par des usagers (humains). En fonction des besoins informationnels et de la complexit&eacute; de mod&eacute;lisation, cette automatisation peut &ecirc;tre partielle ou totale.</p> <p>La dichotomie entre un traitement automatique et un traitement manuel a &eacute;t&eacute; alors et demeure le stimulateur principal pour la plupart des programmes d&#39;&eacute;valuation au niveau international comme CLEF (Cross Language Evaluation Forum)&nbsp;; DARPA (Defense Advanced Research Projects Agency) ; MUC (Message Understanding Conferences)&nbsp;; NTCIR (NII Test Collection for IR Systems)&nbsp;; TDT (Topic Detection and Tracking)&nbsp;;TREC (Text Retrieval Conference), et dans une moindre mesure, au niveau national et francophone, comme le Programme TechnoLangue (Paroubek, 2007).</p> <p>Retour sur les composantes d&#39;un outil &agrave; base linguistique</p> <p>G&eacute;n&eacute;ralement, un syst&egrave;me de traitement automatique d&#39;information s&#39;appuie d&#39;abord sur un pr&eacute;traitement technique (formatage, nettoyage&hellip;), ensuite sur un pr&eacute;traitement linguistique faisant appel &agrave; un ensemble de modules :</p> <p>&middot; Un module de segmentation du corpus en unit&eacute;s d&#39;analyse (en paragraphes, en phrases, en propositions autour d&#39;un verbe, en syntagmes, en concepts, en mots&hellip;)</p> <p>&middot; Un module d&#39;annotation morphosyntaxique qui consiste &agrave; analyser chaque forme du corpus dans son contexte et lui associer son &eacute;tiquette morphosyntaxique ; cela permet de d&eacute;celer des relations potentielles entre des mots du texte ayant des orthographes diff&eacute;rentes (ex. reines, r&eacute;gner, royal) et surtout d&#39;an&eacute;antir des relations entre des mots du texte ayant des orthographes identiques (ex.&nbsp;r&eacute;sident=verbe, r&eacute;sident=adjectif, r&eacute;sident=nom) ou (ex.&nbsp;poste=verbe, poste=nom.mas, poste=nom.f&eacute;m).</p> <p>&middot; Un module d&#39;analyse s&eacute;mantique qui consiste &agrave; identifier des relations de synonymie entre les constituants du texte, voire extraire des r&eacute;seaux s&eacute;mantiques.</p> <p>En fonction de l&#39;architecture du syst&egrave;me, ces modules interviennent de mani&egrave;re s&eacute;quentielle ou interactive pour lever les ambigu&iuml;t&eacute;s qui marquent profond&eacute;ment les langues naturelles, des mots de m&ecirc;me orthographe mais de sens diff&eacute;rents (polys&eacute;mie) et des mots de m&ecirc;me sens mais d&#39;orthographes diff&eacute;rentes (synonymie), en plus des autres difficult&eacute;s li&eacute;es aux anaphores, m&eacute;taphores&hellip;.</p> <p>Retour sur les grandes campagnes d&#39;&eacute;valuation</p> <p>Au-del&agrave; de la diff&eacute;rence des mod&egrave;les th&eacute;oriques et architectures, nous pouvons &eacute;tudier l&#39;&eacute;valuation de syst&egrave;mes sous trois grandes entr&eacute;es, inspir&eacute;es de la norme ISO 9126 (ISO, 1991). On peut &eacute;valuer les param&egrave;tres internes du syst&egrave;me, sans n&eacute;cessairement l&#39;ex&eacute;cuter ; on peut ainsi &eacute;tudier ses dictionnaires et grammaires, ses algorithmes, le volume et la nature des donn&eacute;es &agrave; traiter, etc. Il reste toutefois difficile d&#39;estimer l&#39;impact et la valeur ajout&eacute;e de ces param&egrave;tres. D&#39;ailleurs, c&#39;est pour cette raison que la plupart des campagnes d&#39;&eacute;valuation utilisent plut&ocirc;t les param&egrave;tres externes et proposent dans leur protocole des approches pour &eacute;tudier la fonctionnalit&eacute;, la fiabilit&eacute;, l&#39;utilisabilit&eacute;, l&#39;efficacit&eacute;, la maintenance ou la portabilit&eacute; d&#39;un syst&egrave;me. Enfin, on peut &eacute;valuer un syst&egrave;me en fonction de contexte pour s&#39;int&eacute;resser &agrave; des param&egrave;tres li&eacute;s davantage &agrave; l&#39;usage tels que l&#39;efficacit&eacute;, l&#39;efficience (rendement), la satisfaction, ou la suret&eacute; (Popescu-Belis, 2007).</p> <p>De m&ecirc;me, nous pouvons &eacute;tudier l&#39;&eacute;valuation de syst&egrave;mes en deux autres entr&eacute;es, qui sont cette fois-ci davantage li&eacute;es aux types de besoins auxquels r&eacute;pondent ces syst&egrave;mes. a) Il s&#39;agit de syst&egrave;mes linguistiques, proprement dits, comme des outils de d&eacute;sambigu&iuml;sation lexicale ou des analyseurs morpho-syntaxiques (tagging, parsing). Ces syst&egrave;mes ne pr&eacute;sentent aucun int&eacute;r&ecirc;t pour un usager final, si ce n&#39;est qu&#39;&agrave; des concepteurs ou des chercheurs en ing&eacute;nierie linguistique. Leur &eacute;valuation n&#39;a d&#39;ailleurs pas suscit&eacute; de grands int&eacute;r&ecirc;ts malgr&eacute; le succ&egrave;s de la campagne d&#39;&eacute;valuation Grace (Grammaires et Ressources pour les Analyseurs de Corpus et leur Evaluation) lanc&eacute;e vers les ann&eacute;es 1994, par le CNRS. Si cette action n&#39;a jamais &eacute;t&eacute; reconduite, elle a le m&eacute;rite d&#39;&ecirc;tre consid&eacute;r&eacute;e comme projet pr&eacute;curseur de toutes les campagnes d&#39;&eacute;valuation effectu&eacute;es ult&eacute;rieurement au niveau national et qui a permis de fonder les premi&egrave;res r&eacute;flexions sur l&#39;&eacute;tude de l&#39;&eacute;valuation tant sur le plan m&eacute;thodologique que scientifique. b) Il s&#39;agit des outils applicatifs : ce sont des outils bas&eacute;s certes sur des pr&eacute;traitements linguistiques et fournissent en sortie des donn&eacute;es directement exploitables &agrave; des fins infodocumentaires tels que des outils de cat&eacute;gorisation ou classification, de filtrage, d&#39;indexation, d&#39;extraction de termes d&#39;un domaine. On compte ici &eacute;galement des syst&egrave;mes avec des applications telles que l&#39;Analyse de sentiments ou d&#39;opinions, la recherche d&#39;information, la traduction et le r&eacute;sum&eacute; automatique.</p> <p>Concr&egrave;tement, la plupart des campagnes d&#39;&eacute;valuation observ&eacute;es ont adopt&eacute; un paradigme d&#39;&eacute;valuation fond&eacute; sur un processus en deux phases : d&#39;abord une mise &agrave; disposition des donn&eacute;es n&eacute;cessaires aux syst&egrave;mes ensuite une restitution des r&eacute;sultats fournis par les syst&egrave;mes en r&eacute;ponse &agrave; une m&ecirc;me t&acirc;che (dite de contr&ocirc;le) communiqu&eacute;e en amont comme une hypoth&egrave;se d&#39;usage. Toutes les &eacute;valuations sont partielles et ne portent que sur des t&acirc;ches de contr&ocirc;le (une partie des applications des syst&egrave;mes). Une &eacute;valuation plus globale serait on&eacute;reuse et difficile tant sur le plan logistique que scientifique, son co&ucirc;t peut &ecirc;tre excessivement plus &eacute;lev&eacute; que le b&eacute;n&eacute;fice retir&eacute;. Le pr&eacute;suppos&eacute; du paradigme est qu&#39;il est possible de mesurer en contraste l&#39;efficacit&eacute; des syst&egrave;mes dans un domaine pr&eacute;cis en d&eacute;finissant une t&acirc;che de contr&ocirc;le &agrave; la fois proche des applications potentielles, pour des retomb&eacute;es industrielles, mais suffisamment g&eacute;n&eacute;rique pour convenir &agrave; la majorit&eacute; des acteurs industriels et acad&eacute;miques de la campagne. Aussi, l&#39;hypoth&egrave;se sous-jacente dans la plupart des paradigmes d&#39;&eacute;valuation d&#39;ici, est que dans le cas d&#39;une t&acirc;che de contr&ocirc;le suffisamment repr&eacute;sentative d&#39;une probl&eacute;matique et d&#39;un besoin informationnel r&eacute;el, une diff&eacute;rence quantitative significative entre deux syst&egrave;mes traduit n&eacute;cessairement une diff&eacute;rence qualitative entre leurs mod&egrave;les et bases th&eacute;oriques (Adda &amp; al., 1999).</p> <p>Ainsi les syst&egrave;mes de traduction automatique (dans la campagne CESTA) ont &eacute;t&eacute; &eacute;valu&eacute;s sur des t&acirc;ches comme la lisibilit&eacute; et grammaticalit&eacute; du texte produit, la fid&eacute;lit&eacute; s&eacute;mantique ; les syst&egrave;mes questions-r&eacute;ponses (dans la campagne EQUER), ont &eacute;t&eacute; &eacute;valu&eacute;s sur des t&acirc;ches comme les questions factuelles, les r&eacute;ponses binaires, les requ&ecirc;tes de d&eacute;finition ou d&#39;&eacute;num&eacute;ration. D&#39;ailleurs, c&#39;est le changement r&eacute;current de t&acirc;ches et la d&eacute;finition de nouvelles t&acirc;ches traduisant de nouveaux besoins, qui fait l&#39;objet et l&#39;argument principal de chaque nouvelle &eacute;dition d&#39;une campagne.</p> <p>LA M&Eacute;TA-&Eacute;VALUATION&hellip; OU COMMENT D&Eacute;PASSER LES BIAIS M&Eacute;THODOLOGIQUES ET LIMITES D&#39;APPROCHES</p> <p>Dans cette partie, nous pr&eacute;sentons et discutons les diff&eacute;rents param&egrave;tres des cadres m&eacute;thodologiques d&#39;&eacute;valuation, le corpus et l&rsquo;&eacute;chantillon comme ressources textuelles d&rsquo;entr&eacute;e, puis les r&eacute;f&eacute;rentiels et les experts comme rep&egrave;res de comparaison et de jugement. Nous r&eacute;servons une discussion particuli&egrave;re aux m&eacute;triques employ&eacute;es dans les projets.</p> <p>Le corpus, un mat&eacute;riel souvent conditionn&eacute;</p> <p>Une r&eacute;flexion sur la constitution de corpus sp&eacute;cialis&eacute;s est une phase indispensable dans tout projet d&rsquo;&eacute;valuation d&rsquo;outils de traitement d&#39;information. D&rsquo;apr&egrave;s Pincemin (1999), le corpus doit v&eacute;rifier trois types de conditions&nbsp;: signifiance, acceptabilit&eacute; et exploitabilit&eacute; en plus de la pertinence par rapport &agrave; un objectif d&rsquo;analyse. L&rsquo;ensemble de ces conditions est n&eacute;cessaire pour sa r&eacute;utilisabilit&eacute;.</p> <p>Dans un programme d&#39;&eacute;valuation, les organisateurs mettent g&eacute;n&eacute;ralement 3 types de corpus &agrave; disposition des syst&egrave;mes : un corpus d&rsquo;entra&icirc;nement (dit aussi de test &agrave; blanc ou de training phase) qui permet une pr&eacute;paration des syst&egrave;mes &agrave; partir d&#39;une simulation des param&egrave;tres technique et logistique de l&#39;&eacute;valuation officielle ;&nbsp; un corpus de masquage qui permet d&#39;accro&icirc;tre le volume des donn&eacute;es &agrave; traiter et de dissimuler ainsi la partie d&eacute;di&eacute;e &agrave; l&#39;&eacute;valuation ; le corpus d&#39;&eacute;valuation qui doit avoir des propri&eacute;t&eacute;s physiques et th&eacute;matiques (taille, format, structure, balisage, contenu, homog&eacute;n&eacute;it&eacute;, &hellip;) r&eacute;pondant suffisamment aux contraintes techniques et scientifiques des syst&egrave;mes. Des ressources compl&eacute;mentaires peuvent &ecirc;tre aussi mises &agrave; disposition de la campagne selon les besoins des syst&egrave;mes comme des donn&eacute;es d&#39;apprentissage pour les syst&egrave;mes &agrave; base statistique (dry run), ou des termes d&rsquo;amor&ccedil;age pour les syst&egrave;mes d&#39;extraction de relations (Le&nbsp;Priol,&nbsp;2000).</p> <p>L&rsquo;&eacute;chantillonnage&nbsp;: un outil souvent fiable mais reste discutable</p> <p>Dans la plupart des programmes d&rsquo;&eacute;valuation bas&eacute;s sur une expertise humaine, il n&rsquo;est pas &eacute;vident que les &eacute;valuateurs effectuent un travail d&#39;appr&eacute;ciation sur tout l&rsquo;ensemble des r&eacute;sultats rendus par les syst&egrave;mes. Et aussi pour des raisons de surcharges cognitives qui conduisent parfois &agrave; des h&eacute;sitations r&eacute;p&eacute;t&eacute;es et finalement &agrave; des jugements arbitraires, il est fortement recommand&eacute; de proc&eacute;der par &eacute;chantillonnage, dans le sens o&ugrave; l&rsquo;&eacute;chantillon &agrave; &eacute;valuer peut &ecirc;tre choisi &agrave; partir des donn&eacute;es en entr&eacute;e, ou plut&ocirc;t &agrave; partir des r&eacute;sultats de sortie.</p> <p>Seulement, cela n&rsquo;est pas sans interrogations&nbsp;: que l&rsquo;&eacute;chantillon soit s&eacute;lectionn&eacute; dans les donn&eacute;es d&rsquo;entr&eacute;e ou dans les r&eacute;sultats de sortie, comment justifier le choix de sa taille et quels crit&egrave;res retenir pour garantir sa repr&eacute;sentativit&eacute; et d&eacute;terminer son intervalle de confiance ?</p> <p>Dans (Pincemin,&nbsp;1999), cette r&egrave;gle de repr&eacute;sentativit&eacute; est bien comment&eacute;e&nbsp;: &laquo;&nbsp;on peut, lorsque le mat&eacute;riel s&rsquo;y pr&ecirc;te, effectuer l&rsquo;analyse sur &eacute;chantillon. L&rsquo;&eacute;chantillonnage est dit rigoureux si l&rsquo;&eacute;chantillon est une partie repr&eacute;sentative de l&rsquo;univers de d&eacute;part&nbsp;&raquo;. Dans ce cas, les r&eacute;sultats obtenus sur &eacute;chantillon seront g&eacute;n&eacute;ralisables &agrave; l&rsquo;ensemble de l&rsquo;univers. Cependant, peu de travaux de recherche en SHS ont trait&eacute; cette question et discut&eacute; les intervalles de confiance.</p> <p>Pour att&eacute;nuer cette limite, certains projets de recherche se sont appuy&eacute;s sur des automates de validation automatique, qui permettent de comparer les donn&eacute;es issues des syst&egrave;mes &agrave; des r&eacute;f&eacute;rentiels pr&eacute;&eacute;tablis. Certes, cette proc&eacute;dure a le d&eacute;faut de r&eacute;duire l&#39;appr&eacute;ciation &agrave; un jugement binaire, mais elle a le m&eacute;rite de pouvoir traiter l&rsquo;int&eacute;gralit&eacute; des r&eacute;sultats donn&eacute;s par les syst&egrave;mes (et non pas seulement un &eacute;chantillon) et reste toutefois un indicateur sur le comportement des syst&egrave;mes face &agrave; l&rsquo;ensemble du corpus. Dans d&#39;autres contextes, ces automates de validation automatique permettent &eacute;galement d&rsquo;approcher la valeur du rappel (taux des r&eacute;ponses pertinentes non identifi&eacute;es par le syst&egrave;me), une mesure impossible &agrave; calculer dans le cas d&#39;une validation manuelle.</p> <p>L&rsquo;&eacute;valuation par r&eacute;f&eacute;rentiels&nbsp;: un d&eacute;bat toujours non achev&eacute;</p> <p>Dans un programme d&rsquo;&eacute;valuation, le choix du domaine et des th&eacute;matiques ne peut &ecirc;tre arbitraire. Il faut s&rsquo;assurer de la disponibilit&eacute; d&#39;une part des ressources d&#39;entr&eacute;e ad&eacute;quates et des r&eacute;f&eacute;rentiels valid&eacute;s dans le domaine s&eacute;lectionn&eacute; (pour une &eacute;valuation quantitative) et d&#39;autre part des usagers &eacute;valuateurs familiaris&eacute;s avec le domaine s&eacute;lectionn&eacute; (pour une &eacute;valuation qualitative).</p> <p>Si le recours &agrave; des r&eacute;f&eacute;rentiels pr&eacute;&eacute;tablis est la d&eacute;marche la plus pl&eacute;biscit&eacute;e et la plus utilis&eacute;e pour d&eacute;velopper un cadre m&eacute;thodologique acceptable dans un programme d&rsquo;&eacute;valuation, un questionnement sur le statut de ces r&eacute;f&eacute;rentiels s&#39;impose.</p> <p>En &eacute;tudiant une des campagnes d&#39;&eacute;valuation (CESART) bas&eacute;e sur le principe des r&eacute;f&eacute;rentiels, on a constat&eacute; quelques dilemmes. Un syst&egrave;me peut &ecirc;tre proche d&#39;un r&eacute;f&eacute;rentiel plus que d&#39;un autre m&ecirc;me si les deux r&eacute;f&eacute;rentiels sont valides et &eacute;tablis pour un m&ecirc;me objectif. De m&ecirc;me, un syst&egrave;me peut &ecirc;tre jug&eacute; proche des r&eacute;f&eacute;rentiels d&#39;un domaine et non de ceux d&#39;un autre. Une des solutions consiste &agrave; diversifier les r&eacute;f&eacute;rentiels jusqu&#39;&agrave; l&#39;obtention d&#39;une saturation et d&#39;une stabilit&eacute; des r&eacute;sultats de syst&egrave;mes, mais cette solution reste tr&egrave;s co&ucirc;teuse pour sa mise en &oelig;uvre. Par exemple, lors de l&#39;&eacute;valuation de syst&egrave;mes de construction de ressources terminologiques, les organisateurs ont du faire face &agrave; des r&eacute;f&eacute;rentiels institutionnels extr&ecirc;mement diff&eacute;rents, qui recouvrent cependant un m&ecirc;me domaine qu&#39;est l&#39;&eacute;ducation, ceci est du probablement aux variabilit&eacute;s des pratiques dans la construction et validation des r&eacute;f&eacute;rentiels (LHO,&nbsp;2000).</p> <p>Toutefois, la notion de &quot;r&eacute;f&eacute;rentiel&quot; reste encore en soi probl&eacute;matique. Est-il suffisant de proc&eacute;der par comparaison de r&eacute;sultats donn&eacute;s par des syst&egrave;mes automatiques &agrave; des r&eacute;f&eacute;rentiels &eacute;labor&eacute;s par des experts humains, pour en d&eacute;duire de la qualit&eacute; des syst&egrave;mes&nbsp;? Cette forme de comparaison n&rsquo;est-elle pas r&eacute;ductrice dans la mesure o&ugrave; les r&eacute;sultats des outils, souvent con&ccedil;us dans un but d&rsquo;assistance, sont ici injustement jug&eacute;s face &agrave; la qualit&eacute; pertinente d&rsquo;un travail humain valid&eacute;, particuli&egrave;rement dans le cas des pratiques professionnelles en information et documentation.</p> <p>Si la comparaison &agrave; un r&eacute;f&eacute;rentiel humain peut para&icirc;tre contestable dans la mesure o&ugrave; les syst&egrave;mes sont souvent mal class&eacute;s derri&egrave;re les listes de r&eacute;f&eacute;rence, un grand nombre de campagnes ont privil&eacute;gi&eacute; de proc&eacute;der autrement et de comparer les syst&egrave;mes uniquement entre eux sans aucun r&eacute;f&eacute;rentiel extrins&egrave;que. Cette &eacute;valuation inter-syst&egrave;mes permet de cr&eacute;er un r&eacute;f&eacute;rentiel de consensus &agrave; partir des r&eacute;sultats communs fournis par la majorit&eacute; des syst&egrave;mes (vote majoritaire ou pooling method), cette solution convient &eacute;galement &agrave; d&eacute;faut d&#39;un r&eacute;f&eacute;rentiel de notori&eacute;t&eacute; valide. Seulement, ledit r&eacute;f&eacute;rentiel commun post-&eacute;dit&eacute;, lui non plus, n&#39;est pas sans limite, dans la mesure o&ugrave; il d&eacute;savantage syst&eacute;matiquement les syst&egrave;mes hors commun. Tout syst&egrave;me qui, lui seul, donne des r&eacute;sultats pertinents sera sanctionn&eacute; s&#39;il est compar&eacute; &agrave; un r&eacute;f&eacute;rentiel construit par un vote majoritaire. Ce point est rest&eacute; probl&eacute;matique dans la plupart des programmes d&#39;&eacute;valuation.</p> <p>Les experts&nbsp;: des usagers &eacute;valuateurs ou &eacute;valuateurs usagers ?</p> <p>Dans les programmes d&#39;&eacute;valuation, une attention particuli&egrave;re sur les connaissances scientifiques et comp&eacute;tences pratiques des juges est &agrave; observer soigneusement. Le juge doit faire preuve d&rsquo;une double comp&eacute;tence&nbsp;: dans le domaine et th&eacute;matiques du corpus d&rsquo;une part, et dans les pratiques et usages en rapport avec les applications du syst&egrave;me d&rsquo;autre part.</p> <p>Chaque juge est invit&eacute; &agrave; examiner un ensemble de r&eacute;sultats au maximum, afin de lui &eacute;viter une surcharge mentale qui n&rsquo;est pas sans incidence sur l&rsquo;&eacute;valuation. Et pour que l&rsquo;&eacute;valuation d&rsquo;un syst&egrave;me ne soit biais&eacute;e par la subjectivit&eacute; d&rsquo;un seul juge, il est envisag&eacute; de soumettre un m&ecirc;me syst&egrave;me aux regards de deux juges au minimum. Ce qui reste raisonnable pour pouvoir croiser les r&eacute;sultats des diff&eacute;rents syst&egrave;mes avec les diff&eacute;rentes appr&eacute;ciations des &eacute;valuateurs.</p> <p>Il est &eacute;vident qu&rsquo;une &eacute;valuation manuelle (jugement humain qualitatif) reste plus fiable dans la description des performances ou des limites des syst&egrave;mes, mais constitue toutefois un r&eacute;f&eacute;rentiel qui ne garantit malheureusement pas la reproductibilit&eacute; de l&#39;exp&eacute;rience et par l&agrave; l&rsquo;obtention de r&eacute;sultats objectifs (Daille,&nbsp;2002), il ne permet pas non plus d&rsquo;&eacute;valuer le taux de silence dans certaines applications.</p> <p>Enfin, des questions subsistent. Comment prendre en compte l&#39;&eacute;cart des jugements cognitifs voire &eacute;motionnels entre deux postures distinctes, celle d&#39;un &eacute;valuateur dans le r&ocirc;le d&#39;usager potentiel et celle d&#39;un usager charg&eacute; d&#39;assumer la fonction d&#39;&eacute;valuateur ? Comment s&#39;assurer de la stabilit&eacute; des jugements successifs d&#39;un m&ecirc;me sujet ? Dans un protocole d&#39;&eacute;valuation bas&eacute; sur une expertise humaine, il est primordial d&#39;analyser l&#39;impact de subjectivit&eacute; des experts et de corr&eacute;ler leurs appr&eacute;ciations pour ne pas biaiser le processus. Pour cela, la plupart des actions et campagnes d&#39;&eacute;valuation ont eu recours au calcul des fameuses valeurs de corr&eacute;lation telles que le coefficient de kappa, l&#39;indice de Pearson, ou le test de Khi2.</p> <p>Place des M&eacute;triques dans l&#39;&eacute;valuation&nbsp;: du qualitatif vers le quantitatif</p> <p>Dans plusieurs campagnes d&rsquo;&eacute;valuation, l&rsquo;usage de m&eacute;triques comme approche quantitative est tr&egrave;s courant et se pr&eacute;sente comme une d&eacute;marche scientifique rigoureuse, avec des outils de jugement et d&rsquo;appr&eacute;ciation cadr&eacute;s et normalis&eacute;s. Cependant, il est tr&egrave;s rare dans les recherches sur l&#39;&eacute;valuation de ne pas voir surgir syst&eacute;matiquement le d&eacute;bat &eacute;pist&eacute;mologique entre les d&eacute;fenseurs et les opposants de l&#39;approche quantitative.</p> <p>D&#39;apr&egrave;s les d&eacute;fenseurs de l&#39;&eacute;valuation quantitative, celle-ci permet de r&eacute;pondre au besoin croissant d&#39;applications, manifest&eacute; par un foisonnement de m&eacute;thodes et d&#39;outils et devant lesquels l&#39;usager &eacute;prouve ses difficult&eacute;s d&#39;&eacute;valuation et de s&eacute;lection de mani&egrave;re objective. De leur c&ocirc;t&eacute;, des opposants &agrave; l&rsquo;approche quantitative estiment g&eacute;n&eacute;ralement que l&rsquo;&eacute;valuation des syst&egrave;mes est par essence de nature qualitative et que le versant quantitatif est n&eacute;cessairement limit&eacute; au cadre d&#39;une validation plut&ocirc;t qu&rsquo;une &eacute;valuation. Si les arguments des deux camps sont recevables et traduisent deux approches compl&eacute;mentaires d&rsquo;une m&ecirc;me probl&eacute;matique, il est cependant important de noter que, gr&acirc;ce aux campagnes d&rsquo;&eacute;valuation, l&rsquo;approche quantitative de l&#39;&eacute;valuation a non seulement permis de faire avancer l&rsquo;&eacute;tat de l&rsquo;art de mani&egrave;re significative, mais a &eacute;galement favoris&eacute; l&rsquo;expansion du champ d&rsquo;application des m&eacute;thodes &agrave; base linguistique (Adda &amp; al. 99).</p> <p>Dans une des campagnes &eacute;tudi&eacute;es (CESART), une des solutions prudentes pour att&eacute;nuer les limites d&#39;une &eacute;valuation quantitative, a &eacute;t&eacute; de demander &agrave; chaque juge d&#39;&eacute;tablir un classement argument&eacute; de l&rsquo;ensemble des syst&egrave;mes expertis&eacute;s selon certains crit&egrave;res. Cet ordonnancement a permis de v&eacute;rifier des questions sous-jacentes :</p> <p>&middot; Y a-t-il un accord inter-juges ? une diff&eacute;rence significative dans l&rsquo;ordonnancement des syst&egrave;mes implique une divergence dans les regards des juges. Cette diff&eacute;rence est-elle due au statut de juge responsable de l&#39;expertise, doit-il &ecirc;tre l&rsquo;utilisateur final ou le sp&eacute;cialiste du domaine ?</p> <p>&middot; S&#39;il y a un accord entre la majorit&eacute; des juges, l&rsquo;appr&eacute;ciation globale donn&eacute;e par les experts est-elle en concordance avec les mesures calcul&eacute;es de mani&egrave;re algorithmique&nbsp;?</p> <p>L&#39;&eacute;valuation orient&eacute;e syst&egrave;me, orient&eacute;e usage</p> <p>S&#39;il y a un d&eacute;nominateur commun &agrave; relever des diff&eacute;rents programmes d&#39;&eacute;valuation, il sera la r&eacute;flexion permanente d&#39;innover dans des m&eacute;triques alternatives &agrave; celles commun&eacute;ment utilis&eacute;es depuis des d&eacute;cennies. Dans la plupart des travaux, l&#39;&eacute;valuation est orient&eacute;e syst&egrave;me (Mod&egrave;le Cranfield) dans le sens o&ugrave; elle est d&eacute;pendante d&#39;une m&eacute;trique qui calcule l&#39;&eacute;cart entre les productions des syst&egrave;mes et un r&eacute;f&eacute;rentiel pr&eacute;&eacute;tabli ou parfois post &eacute;dit&eacute; dans le cas des pooling method. Or, la pertinence &eacute;tant une fonction r&eacute;troactive, instable et &eacute;volutive, mais aucunement binaire, il devient l&eacute;gitime de se demander comment des m&eacute;triques peuvent s&#39;y pr&ecirc;ter pour r&eacute;pondre &agrave; la satisfaction informationnelle des usagers et non &agrave; des consid&eacute;rations calculatoires des &eacute;valuateurs. Des recherches, notamment en sciences de l&#39;information, ont montr&eacute; les limites m&eacute;thodologiques et th&eacute;oriques de ce mod&egrave;le et ont privil&eacute;gi&eacute; un changement de paradigme et une &eacute;valuation orient&eacute;e usager (Chaudiron, 2002). Enfin, n&#39;est-il pas int&eacute;ressant d&#39;orienter la r&eacute;flexion vers un troisi&egrave;me paradigme, celui de l&#39;&eacute;valuation participative (ou l&#39;&eacute;valuation de masse) avec ses propres th&eacute;ories, m&eacute;thodologies et outils (popularit&eacute;, communaut&eacute;&hellip;)&nbsp;?</p> <p>Pour des raisons de co&ucirc;t et de simplification, la plupart des campagnes d&#39;&eacute;valuation ont &eacute;t&eacute; orient&eacute;es syst&egrave;mes et men&eacute;es en mode in&nbsp;vitro, les interactions entre l&#39;usager potentiel et son environnement naturel ont &eacute;t&eacute; d&eacute;laiss&eacute;es de l&#39;&eacute;tude. Toutefois, la campagne INFILE sur le filtrage de l&#39;information dans une perspective de veille, a &eacute;t&eacute; tr&egrave;s prudente sur cette question et a int&eacute;gr&eacute; dans son protocole un maximum de v&eacute;rit&eacute;s-terrain sur les pratiques de veille afin d&#39;&ecirc;tre le plus proche des conditions naturelles, (mode in&nbsp;vivo).</p> <p>CONCLUSION</p> <p>Finalement, le traitement automatique de l&#39;information rel&egrave;ve &agrave; la fois de la d&eacute;marche technologique et de la d&eacute;marche scientifique. La perception de l&#39;&eacute;valuation dans ce domaine varie consid&eacute;rablement entre les d&eacute;veloppeurs, les industriels, les chercheurs et les usagers potentiels&hellip; L&#39;&eacute;valuation des syst&egrave;mes informatiques ne doit plus &ecirc;tre per&ccedil;ue seulement comme outil qui contribue &agrave; d&eacute;velopper le volet technologique mais aussi en tant qu&#39;un indicateur de progr&egrave;s de la recherche scientifique. L&#39;observation des dispositifs d&#39;&eacute;valuation, l&#39;analyse des pratiques d&#39;&eacute;valuation et l&#39;&eacute;tude de cadres m&eacute;thodologiques d&#39;&eacute;valuation ouvrent de nouvelles perspectives de recherche scientifique dans le champ des sciences de l&#39;information et de la communication, qu&#39;on peut nommer abusivement &quot;l&#39;&eacute;valuation de l&#39;&eacute;valuation&quot;.</p> <p>Au regard de la place primordiale des Technologies de l&#39;Information et de la Communication dans les travaux de recherche en SIC, la question de leur &eacute;valuation devient alors, elle aussi, primordiale. Il ne serait pas alors absurde de conclure que le probl&egrave;me &eacute;pist&eacute;mologique central de la question &eacute;tudi&eacute;e SIC est comment approcher les interactions usager-syst&egrave;me dans un paradigme d&#39;&eacute;valuation et introduire des mod&egrave;les non contestables qui font r&eacute;f&eacute;rence &agrave; l&#39;usage et aux pratiques d&#39;une part et en concordance &agrave; des r&eacute;f&eacute;rentiels et m&eacute;triques d&#39;autre part.</p> <p>Ce bilan &eacute;pist&eacute;mologique des recherches sur l&rsquo;&eacute;valuation des syst&egrave;mes de traitement automatique de l&#39;information, laisse comprendre qu&#39;en sciences de l&#39;information aussi, les relations entre th&eacute;orie et pratique en mati&egrave;re d&rsquo;&eacute;valuation demeurent une aporie opposant et reliant, &agrave; la fois, le syst&egrave;me technicien, priv&eacute; de sens et la recherche permanente d&rsquo;une th&eacute;orie, g&eacute;n&eacute;ratrice de sens (Figari, 2013&nbsp;; Rodriguez-Pab&oacute;n, 2005).</p> <p>R&Eacute;F&Eacute;RENCES BIBLIOGRAPHIQUES</p> <p>Adda, G., Mariani, J., Paroubek, P., Rajman, M., &amp; Lecomte, J. (1999). L&#39;action GRACE d&#39;&eacute;valuation de l&#39;assignation des parties du discours pour le fran&ccedil;ais. Revue Langues, Vol. 2, No. 2, Juin 1999, pp 119-129.</p> <p>Boub&eacute;e, N., Tricot, A. (2018). Qu&#39;est-ce que rechercher de l&#39;information ? Lyon : Presses de l&#39;enssib, 2018.</p> <p>Cavazza M. (1993). M&eacute;thodes d&#39;&eacute;valuation des logiciels incorporant des technologies d&#39;informatique linguistique. Paris, Rapport MRE-DIST, 1993.</p> <p>Chaudiron, S., Ihadjadene, M. (2002), Quelle place pour l&rsquo;usager dans l&rsquo;&eacute;valuation des SRI&nbsp;?. Recherches r&eacute;centes en sciences de l&rsquo;information : Convergences et dynamiques, 2002, Toulouse.</p> <p>Daille B. (2002). D&eacute;couvertes linguistiques en corpus. M&eacute;moire d&rsquo;habilitation &agrave; diriger des recherches en informatique, Universit&eacute; de Nantes.</p> <p>Figari, G. (2013). L&rsquo;&eacute;valuation entre &laquo; technicit&eacute; &raquo; et &laquo; th&eacute;orisation &raquo; ? In Mesure et &eacute;valuation en &eacute;ducation, vol. 36 (3), 2013.</p> <p>Gu&eacute;rin-Schneider, L., Tsanga Tabi, M. (2017). L&rsquo;Analyse du Cycle de Vie, nouvel outil d&rsquo;&eacute;valuation environnementale &agrave; l&rsquo;appui des politiques publiques locales&nbsp;: Quelle appropriation par les services d&rsquo;assainissement&nbsp;? Gestion et management public, volume 5 / 4(2), 61-83. doi:10.3917/gmp.054.0061.</p> <p>ISO/IEC (1999). Technologies de l&#39;information - &Eacute;valuation de produits logiciels - Partie 1 : Aper&ccedil;u g&eacute;n&eacute;ral. ISO/IEC 14598-1:1999.</p> <p>Jorro, A., Droyer, N. (dir.) 2019. L&rsquo;&eacute;valuation, levier pour l&rsquo;enseignement et la formation, De Boeck Sup&eacute;rieur, 2019.</p> <p>Le Priol F. (2000), Extraction et capitalisation automatiques de connaissances &agrave; partir de documents textuels. SEEK-JAVA : identification et interpr&eacute;tation de relations entre concepts, Paris, Th&egrave;se de doctorat, Universit&eacute; Paris-Sorbonne.</p> <p>Michel, C., Rouissi, S. (2003). G&eacute;n&eacute;ration de documents d&#39;&eacute;valuation des connaissances pour l&#39;e-learning., in 6&egrave;me Colloque International sur le Document &Eacute;lectronique (CIDE.6), Caen, France, 24-26 nov. 2003.</p> <p>Nakache, D., Metais, E. (2005), &Eacute;valuation : nouvelle approche avec juges. INFORSID&#39;05 XXIII e congr&egrave;s, Grenoble, Jan 2005.</p> <p>Paroubek, P., Chaudiron, S. et Hirschman, L. (2007). Principles of Evaluation in Natural Language Processing. TAL, 48(1), p. 7&ndash;31.</p> <p>Pincemin, B. (1999). &laquo;&nbsp;Construire et utiliser un corpus&nbsp;: le point de vue d&rsquo;une s&eacute;mantique textuelle interpr&eacute;tative&nbsp;&raquo;, in A. Condamines, M.-P. P&eacute;ry-Woodley &amp; C. Fabre (&eacute;ds), Atelier Corpus et TAL&nbsp;: pour une r&eacute;flexion m&eacute;thodologique (TALN&nbsp;99), Carg&egrave;se (Corse, France).</p> <p>Popescu-Belis, A. (2007). Le r&ocirc;le des m&eacute;triques d&#39;&eacute;valuation dans le processus de recherche en TAL. In : TAL (Traitement Automatique de la Langue), vol. 48, n. 1. 2007.</p> <p>Reider, Harry R. (2000). Benchmarking strategies a tool for profit improvement. New York : John Wiley, 2000, 288 p.</p> <p>Rodriguez-Pab&oacute;n, O. (2005). Cadre th&eacute;orique pour l&rsquo;&eacute;valuation des infrastructures d&rsquo;information g&eacute;o-spatiale. Universit&eacute; Laval. Th&egrave;se de doctorat, 2005.</p> <p>Salton G. &amp; McGill, M, (1983). Introduction to Modern Information Retrieval. Coll. Computer Science S., McGraw-Hill, 1983.</p> <p>Sparck-Jones K. and Gallier J.R. (1996). Evaluating Natural Language Processing Systems: An Analysis and Review, Springer, Berlin, 1996.</p> <p>Timimi I. (2006). L&rsquo;&eacute;valuation des syst&egrave;mes d&rsquo;acquisition d&rsquo;outils de terminologie&nbsp;: nouvelles m&eacute;triques, nouvelles pratiques. Colloque Jadt&rsquo;06, Besan&ccedil;on, 19-21 avril 2006</p> <p>Van Rijsbergen, C.-J. (1979). Information Retrieval, 2nd edition. Butterworth-Heinemann. ISBN:0408709294.</p>