Contexte et état des lieux Parce qu'elle peut servir la planification ou l'aide au développement, la certification ou la mise en conformité, la gratification ou la promotion… l'évaluation a toujours suscité un intérêt capital auprès des praticiens et des chercheurs dans les différents domaines et disciplines. Selon des contextes, sa dénomination a été parfois assimilée à ses finalités (valorisation, expertise, notation, labélisation, qualimétrie, webométrie…) et sa modélisation s'est construite autour de supports aussi variés (audit, benchmark, tableau de bord, matrice swot, diagramme de Gantt…) (Reider, 2000). Ses concepts et outils sont ancrés dans un réseau sémantique vaste (performance, pertinence, distance, référentiel, métrique, besoin) générant ainsi une querelle de mots en opposition et de dichotomies (évaluation quantitative/qualitative, automatique/manuelle, verticale/horizontale, glass box/black box, orientée système/orientée usager, dynamique/statique, ex-ante/ex-post, intrants/extrants, …) Si l'évaluation en tant que pratique est massivement observée dans le milieu universitaire, en tant qu'objet d'étude elle n'a pas eu le même mérite. En sciences de l'information et du document peu nombreux sont les travaux qui se sont intéressés à l'objet de l'évaluation appliquée aux systèmes d'information et encore moins aux systèmes de traitement automatique de l'information (STI). Comme pour l'information imagée, l'information textuelle compte pour son traitement automatique, elle aussi, un grand nombre d'outils, majoritairement à composante linguistique. Ces outils ont été conçus pour répondre à des activités langagières et pratiques informationnelles et documentaires habituellement prises en charge par des humains. La dichotomie entre un traitement automatique et un traitement manuel a été alors le stimulateur principal pour de grandes campagnes d'évaluation au niveau international (Programmes TREC, DARPA, CLEF) et dans une moindre mesure au niveau des pays de la francophonie (Programme Technolangue), (Paroubek, 07). Problématique et questionnements S'il y a un dénominateur commun à relever des différentes campagnes, il sera la réflexion permanente d'innover dans des métriques alternatives pour dépasser celles communément utilisées depuis 25 ans pour évaluer indifféremment ces algorithmes de traitement d'information, à savoir le rappel, la précision et leur moyenne harmonique la F-measure. Dans la plupart des travaux, l'évaluation a été orientée système (Modèle Cranfield) dans le sens où elle est devenue dépendante d'une simple métrique qui calcule l'écart entre la production du système et le référentiel adopté en amont. Des chercheurs, notamment en sciences de l'information, ont montré les limites méthodologiques et théoriques de ce type d'évaluation et ont privilégié un changement de paradigme et une évaluation orientée usager (Chaudiron, 02). Dès lors, plusieurs questions opposant les deux paradigmes surgissent : · Dans une évaluation centrée usager, comment est-il possible de relier des jugements cognitifs et émotionnels dans deux postures distinctes, usager-évaluateur et évaluateur-usager ? · La pertinence n'étant jamais une fonction binaire, comment les métriques doivent-elles s'y prêter pour répondre aux besoins informationnels des usagers potentiels et non à des considérations calculatoires des évaluateurs ? · À défaut de référentiels institutionnels, certaines campagnes recourent au pooling method. Or, ce référentiel post-édité n'est pas sans limite, et ne sanctionne-t-il pas systématiquement les systèmes hors commun ? · Les normes ISO/IEC d'évaluation de logiciels, les oubliées de ces campagnes, sont-elles une opportunité ou un frein dans les processus d'évaluation, du à leur écart des réalités-terrains ? · Enfin, n'est-il pas intéressant d'orienter la réflexion vers un troisième paradigme, celui de l'évaluation participative (ou l'évaluation de masse) avec ses propres théories, méthodologies et outils (popularité, communauté, …) ? Méthodologie, résultats et discussion Nous disposons d'un corpus scientifique construit de nombreux articles et rapports de recherche, relayant plusieurs années de projets d'évaluation, commandités dans le cadre des grands programmes précités. Nous cherchons à analyser plusieurs situations d'évaluation décrites dans le corpus en nous intéressant à leurs biais méthodologiques et limites d'approches. Le but est de dresser un bilan épistémologique des recherches sur l’évaluation des systèmes de traitement automatique de l'information, et de montrer qu'en sciences de l'information aussi, les relations entre théorie et pratique en matière d’évaluation demeurent une aporie opposant et reliant, à la fois, le système technicien, privé de sens et la recherche permanente d’une théorie, génératrice de sens (Figari, 2013 ; Rodriguez-Pabón, 2005). Balisage Bibliographique Boubée, N., Tricot, A. (2018). Qu'est-ce que rechercher de l'information ? Lyon : Presses de l'enssib, 2018. Chaudiron, S., Ihadjadene, M. (2002), Quelle place pour l’usager dans l’évaluation des SRI ?. Recherches récentes en sciences de l’information : Convergences et dynamiques, Mar 2002, Toulouse, France. Figari, G. (2013). L’évaluation entre « technicité » et « théorisation » ? In Mesure et évaluation en éducation, vol. 36 (3), 2013. Hudon, M. (2013). Analyse et représentation documentaires : introduction à l ’indexation, à la classification et à la condensation des documents. Québec : Presses de l’Université du Québec, 2013. Lafouge, T., Le Coadic, Y. et Michel, C. (2002) Éléments de statistique et de mathématique de l’information. Infométrie, bibliométrie, médiamétrie, scientométrie, museométrie, webométrie. Lyon : Les cahiers de l’ENSSIB, 2002. Michel, C., Rouissi, S. (2003). Génération de documents d'évaluation des connaissances pour l'e-learning., in 6ème Colloque International sur le Document Eléctronique (CIDE.6), Caen, France, 24-26 nov. 2003. Nakache, D., Metais, E. (2005), Évaluation : nouvelle approche avec juges. INFORSID'05 XXIII e congrès, Grenoble, Jan 2005. Paroubek, P., Chaudiron, S. et Hirschman, L. (2007). Principles of Evaluation in Natural Language Processing. TAL, 48(1), p. 7–31. Popescu-Belis, A. (2007). Le rôle des métriques d'évaluation dans le processus de recherche en TAL. In : TAL (Traitement Automatique de la Langue), vol. 48, n. 1. 2007. Reider, Harry R. (2000). Benchmarking strategies a tool for profit improvement. New York : John Wiley, 2000, 288 p. Rodriguez-Pabón, O. (2005). Cadre théorique pour l’évaluation des infrastructures d’information géo-spatiale. Université Laval. Thèse de doctorat, 2006. ISO/IEC. Technologies de l'information - Évaluation de produits logiciels - Partie 1 : Aperçu général. ISO/IEC 14598-1:1999.