<p>Contexte et &eacute;tat des lieux</p> <p>Parce qu&#39;elle peut servir la planification ou l&#39;aide au d&eacute;veloppement, la certification ou la mise en conformit&eacute;, la gratification ou la promotion&hellip; l&#39;&eacute;valuation a toujours suscit&eacute; un int&eacute;r&ecirc;t capital aupr&egrave;s des praticiens et des chercheurs dans les diff&eacute;rents domaines et disciplines.</p> <p>Selon des contextes, sa d&eacute;nomination a &eacute;t&eacute; parfois assimil&eacute;e &agrave; ses finalit&eacute;s (valorisation, expertise, notation, lab&eacute;lisation, qualim&eacute;trie, webom&eacute;trie&hellip;) et sa mod&eacute;lisation s&#39;est construite autour de supports aussi vari&eacute;s (audit, benchmark, tableau de bord, matrice swot, diagramme de Gantt&hellip;) (Reider, 2000). Ses concepts et outils sont ancr&eacute;s dans un r&eacute;seau s&eacute;mantique vaste (performance, pertinence, distance, r&eacute;f&eacute;rentiel, m&eacute;trique, besoin) g&eacute;n&eacute;rant ainsi une querelle de mots en opposition et de dichotomies (&eacute;valuation quantitative/qualitative, automatique/manuelle, verticale/horizontale, glass&nbsp;box/black&nbsp;box, orient&eacute;e syst&egrave;me/orient&eacute;e usager, dynamique/statique, ex-ante/ex-post, intrants/extrants, &hellip;)</p> <p>Si l&#39;&eacute;valuation en tant que pratique est massivement observ&eacute;e dans le milieu universitaire, en tant qu&#39;objet d&#39;&eacute;tude elle n&#39;a pas eu le m&ecirc;me m&eacute;rite. En sciences de l&#39;information et du document peu nombreux sont les travaux qui se sont int&eacute;ress&eacute;s &agrave; l&#39;objet de l&#39;&eacute;valuation appliqu&eacute;e aux syst&egrave;mes d&#39;information et encore moins aux syst&egrave;mes de traitement automatique de l&#39;information (STI).</p> <p>Comme pour l&#39;information imag&eacute;e, l&#39;information textuelle compte pour son traitement automatique, elle aussi, un grand nombre d&#39;outils, majoritairement &agrave; composante linguistique. Ces outils ont &eacute;t&eacute; con&ccedil;us pour r&eacute;pondre &agrave; des activit&eacute;s langagi&egrave;res et pratiques informationnelles et documentaires habituellement prises en charge par des humains. La dichotomie entre un traitement automatique et un traitement manuel a &eacute;t&eacute; alors le stimulateur principal pour de grandes campagnes d&#39;&eacute;valuation au niveau international (Programmes TREC, DARPA, CLEF) et dans une moindre mesure au niveau des pays de la francophonie (Programme Technolangue), (Paroubek, 07).</p> <p>Probl&eacute;matique et questionnements</p> <p>S&#39;il y a un d&eacute;nominateur commun &agrave; relever des diff&eacute;rentes campagnes, il sera la r&eacute;flexion permanente d&#39;innover dans des m&eacute;triques alternatives pour d&eacute;passer celles commun&eacute;ment utilis&eacute;es depuis 25 ans pour &eacute;valuer indiff&eacute;remment ces algorithmes de traitement d&#39;information, &agrave; savoir le rappel, la pr&eacute;cision et leur moyenne harmonique la F-measure.</p> <p>Dans la plupart des travaux, l&#39;&eacute;valuation a &eacute;t&eacute; orient&eacute;e syst&egrave;me (Mod&egrave;le Cranfield) dans le sens o&ugrave; elle est devenue d&eacute;pendante d&#39;une simple m&eacute;trique qui calcule l&#39;&eacute;cart entre la production du syst&egrave;me et le r&eacute;f&eacute;rentiel adopt&eacute; en amont. Des chercheurs, notamment en sciences de l&#39;information, ont montr&eacute; les limites m&eacute;thodologiques et th&eacute;oriques de ce type d&#39;&eacute;valuation et ont privil&eacute;gi&eacute; un changement de paradigme et une &eacute;valuation orient&eacute;e usager (Chaudiron, 02).</p> <p>D&egrave;s lors, plusieurs questions opposant les deux paradigmes surgissent :</p> <p>&middot; Dans une &eacute;valuation centr&eacute;e usager, comment est-il possible de relier des jugements cognitifs et &eacute;motionnels dans deux postures distinctes, usager-&eacute;valuateur et &eacute;valuateur-usager ?</p> <p>&middot; La pertinence n&#39;&eacute;tant jamais une fonction binaire, comment les m&eacute;triques doivent-elles s&#39;y pr&ecirc;ter pour r&eacute;pondre aux besoins informationnels des usagers potentiels et non &agrave; des consid&eacute;rations calculatoires des &eacute;valuateurs ?</p> <p>&middot; &Agrave; d&eacute;faut de r&eacute;f&eacute;rentiels institutionnels, certaines campagnes recourent au pooling method. Or, ce r&eacute;f&eacute;rentiel post-&eacute;dit&eacute; n&#39;est pas sans limite, et ne sanctionne-t-il pas syst&eacute;matiquement les syst&egrave;mes hors commun ?</p> <p>&middot; Les normes ISO/IEC d&#39;&eacute;valuation de logiciels, les oubli&eacute;es de ces campagnes, sont-elles une opportunit&eacute; ou un frein dans les processus d&#39;&eacute;valuation, du &agrave; leur &eacute;cart des r&eacute;alit&eacute;s-terrains ?</p> <p>&middot; Enfin, n&#39;est-il pas int&eacute;ressant d&#39;orienter la r&eacute;flexion vers un troisi&egrave;me paradigme, celui de l&#39;&eacute;valuation participative (ou l&#39;&eacute;valuation de masse) avec ses propres th&eacute;ories, m&eacute;thodologies et outils (popularit&eacute;, communaut&eacute;, &hellip;) ?</p> <p>M&eacute;thodologie, r&eacute;sultats et discussion</p> <p>Nous disposons d&#39;un corpus scientifique construit de nombreux articles et rapports de recherche, relayant plusieurs ann&eacute;es de projets d&#39;&eacute;valuation, commandit&eacute;s dans le cadre des grands programmes pr&eacute;cit&eacute;s. Nous cherchons &agrave; analyser plusieurs situations d&#39;&eacute;valuation d&eacute;crites dans le corpus en nous int&eacute;ressant &agrave; leurs biais m&eacute;thodologiques et limites d&#39;approches. Le but est de dresser un bilan &eacute;pist&eacute;mologique des recherches sur l&rsquo;&eacute;valuation des syst&egrave;mes de traitement automatique de l&#39;information, et de montrer qu&#39;en sciences de l&#39;information aussi, les relations entre th&eacute;orie et pratique en mati&egrave;re d&rsquo;&eacute;valuation demeurent une aporie opposant et reliant, &agrave; la fois, le syst&egrave;me technicien, priv&eacute; de sens et la recherche permanente d&rsquo;une th&eacute;orie, g&eacute;n&eacute;ratrice de sens (Figari, 2013 ; Rodriguez-Pab&oacute;n, 2005).</p> <p>Balisage Bibliographique</p> <p>Boub&eacute;e, N., Tricot, A. (2018). Qu&#39;est-ce que rechercher de l&#39;information ? Lyon : Presses de l&#39;enssib, 2018.</p> <p>Chaudiron, S., Ihadjadene, M. (2002), Quelle place pour l&rsquo;usager dans l&rsquo;&eacute;valuation des SRI&nbsp;?. Recherches r&eacute;centes en sciences de l&rsquo;information : Convergences et dynamiques, Mar 2002, Toulouse, France.</p> <p>Figari, G. (2013). L&rsquo;&eacute;valuation entre &laquo; technicit&eacute; &raquo; et &laquo; th&eacute;orisation &raquo; ? In Mesure et &eacute;valuation en &eacute;ducation, vol. 36 (3), 2013.</p> <p>Hudon, M. (2013). Analyse et repr&eacute;sentation documentaires : introduction &agrave; l &rsquo;indexation, &agrave; la classification et &agrave; la condensation des documents. Qu&eacute;bec : Presses de l&rsquo;Universit&eacute; du Qu&eacute;bec, 2013.</p> <p>Lafouge, T., Le Coadic, Y. et Michel, C. (2002) &Eacute;l&eacute;ments de statistique et de math&eacute;matique de l&rsquo;information. Infom&eacute;trie, bibliom&eacute;trie, m&eacute;diam&eacute;trie, scientom&eacute;trie, museom&eacute;trie, webom&eacute;trie. Lyon&nbsp;: Les cahiers de l&rsquo;ENSSIB, 2002.</p> <p>Michel, C., Rouissi, S. (2003). G&eacute;n&eacute;ration de documents d&#39;&eacute;valuation des connaissances pour l&#39;e-learning., in 6&egrave;me Colloque International sur le Document El&eacute;ctronique (CIDE.6), Caen, France, 24-26 nov. 2003.</p> <p>Nakache, D., Metais, E. (2005), &Eacute;valuation : nouvelle approche avec juges. INFORSID&#39;05 XXIII e congr&egrave;s, Grenoble, Jan 2005.</p> <p>Paroubek, P., Chaudiron, S. et Hirschman, L. (2007). Principles of Evaluation in Natural Language Processing. TAL, 48(1), p. 7&ndash;31.</p> <p>Popescu-Belis, A. (2007). Le r&ocirc;le des m&eacute;triques d&#39;&eacute;valuation dans le processus de recherche en TAL. In : TAL (Traitement Automatique de la Langue), vol. 48, n. 1. 2007.</p> <p>Reider, Harry R. (2000). Benchmarking strategies a tool for profit improvement. New York : John Wiley, 2000, 288 p.</p> <p>Rodriguez-Pab&oacute;n, O. (2005). Cadre th&eacute;orique pour l&rsquo;&eacute;valuation des infrastructures d&rsquo;information g&eacute;o-spatiale. Universit&eacute; Laval. Th&egrave;se de doctorat, 2006.</p> <p>ISO/IEC. Technologies de l&#39;information - &Eacute;valuation de produits logiciels - Partie 1 : Aper&ccedil;u g&eacute;n&eacute;ral. ISO/IEC 14598-1:1999.</p>