<h2 style="text-align:justify; margin-top:11px; margin-bottom:5px"><span style="font-size:14pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="font-weight:normal">Introduction </span></span></span></span></span></h2>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">D’entrée de jeu, l'histoire de l'intelligence artificielle débute dans les années 1950 à 1956, marquée par des personnalités telles que John McCarthy, chercheur américain au département d'informatique de l'Université de Stanford (McCarthy, 2012). Et Marvin Minsky, un autre scientifique américain diplômé des universités de Harvard et de Princeton (Rifkin, 2016), il est l’auteur du livre « Perceptrons : An Introduction to Computational Geometry » (Minsky & Papert, 1969). Bien que ces deux scientifiques aient été des pionniers de l'IA, c'est à McCarthy que l'on attribue la fondation réelle de cette discipline. Pour lui, l'intelligence artificielle représentait avant tout une discipline scientifique et un processus d'ingénierie visant à concevoir des programmes informatiques intelligents, car susceptible de comprendre l’intelligence humaine (McCarthy, 1998). Ou encore, c’est la « capacité d’une machine numérique à effectuer des tâches communément accomplies par des êtres intelligents, et les technologies associées sont divisées en différentes branches, telles que la vision par ordinateur, la parole, l’apprentissage automatique, les mégadonnées et le traitement du langage naturel » (“Cahier,” 2023). À cet effet, elle possède des applications variées, dans le secteur des transports, elle augmente les capacités des véhicules, de la prévention des accidents à la prise de décisions. En santé, l'IA contribue à la détection de pathologies et à la précision des interventions médicales. En agriculture, elle assiste dans la surveillance, la prédiction et la récolte. Dans les finances, elle facilite la prise de décision et améliore l'expérience client. L'IA joue également un rôle dans la communication, par la diffusion d'informations et la création de contenu. En science, elle participe à l'analyse et à la production de la littérature scientifique. Dans le domaine juridique, elle aide à la prédiction et à l'évaluation des cas (faits juridiques). En matière de sécurité, elle permet la détection d'anomalies et l'automatisation des processus. Enfin, dans l'administration publique et privée, ainsi que dans les associations, l'IA optimise la productivité et facilite l'accessibilité et la reconnaissance des documents (Organisation de coopération et de développement économiques (OCDE), 2019). Cependant, les recherches sur ce sujet révèlent que l'intelligence artificielle est un domaine vaste, et qu'il existerait quatre types d'intelligence artificielle, chacune avec ses particularités. L'Intelligence Artificielle Générale (IAG), ayant pour objectif d’imiter ou reproduire les capacités cérébrales humaines telles que la cognition, la rétention, le calcul, etc. L'Intelligence Artificielle Étroite (IAE), qui s'appuie sur les technologies de traitement du langage naturel, ou Natural Language Processing (NLP), et se concentre sur une fonction unique : converser avec son l'utilisateur. La Superintelligence Artificielle (SA) qui aspire à surpasser l'intelligence humaine dans tous les domaines, réduisant ainsi ou éliminant le besoin d'intervention humaine (Fourtané, 2019). Enfin, l'Intelligence Artificielle Générative (IAG), dédiée à la création de nouveaux contenus ou reformulations documentaires (textes, sons, images, vidéos) à partir d'un ensemble de données sur lesquelles elle a été entraînée. Tout au long de cet article, nous nous intéresserons particulièrement sur comment les GPTs peuvent assister les moteurs de recherche scientifiques dans le moissonnage, l'indexation, le classement et la présentation des informations scientifiques et techniques de façon plus exhaustive et accessible pour les utilisateurs de cet écosystème ? La réponse à cette problématique constituera l'une des préoccupations majeures de cet article. Il existe également des préoccupations spécifiques qui seront abordées dans la section suivante.</span></span></span></p>
<h2 style="text-align:justify; margin-top:11px; margin-bottom:5px"><span style="font-size:14pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="font-weight:normal">Objectif de la recherche </span></span></span></span></span></h2>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">D’emblée, cette recherche combine à la fois de la théorie et de la pratique. En effet, elle se veut théorique dans la mesure où elle découle d'une réflexion personnelle sur l'objet d'étude. <a name="_Hlk169657179">En tant que doctorant et acteur de l’écosystème de l’information scientifique et technique, je formule des questions au sujet des moteurs de recherche scientifique et de la relation qu’ils entretiennent avec l’IST</a>. Cependant, il me semble que leur processus de constitution des sources d'information à moissonner est aujourd'hui obsolète, car s’appuyant exclusivement sur les publications scientifiques, sachant que l'information scientifique a évolué. De plus, le développement technologique, à travers des technologies comme l'intelligence artificielle générative, a remodelé ou remodèlera à la fois les usages et les pratiques des utilisateurs de ces dispositifs d'accès à l'information au sein du web. Comme toute innovation, elle comporte des biais les moteurs de recherche n’en font pas exception. Au-delà de ces biais, nous souhaitons tout de même comprendre comment cette intelligence artificielle générative s’intègre aux moteurs de recherche scientifiques d’une part. D’autre part, voir comment elle envisage de corriger le moissonnage, l'indexation, le classement et la présentation de l'information scientifique et technique de manière que les utilisateurs aient une IST plus complète. Fort de ce besoin, nous avons dû mobiliser un moteur de recherche d'étude nommé ELICIT, qui nous a servi de moteur de recherche scientifique d’expérimentation. Nous souhaitions recueillir et analyser des données témoignant d'une possible utilisation de l'IA, ainsi que les ajustements qu'elle a pu apporter, une démarche qui nous conduit inéluctablement vers une approche pratique. Indépendamment de ces deux approches, nous voulons :</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">1. Comprendre l’IST, notamment ses canaux, acteurs et produits documentaires.</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">2. Comprendre l’intelligence artificielle générative (GPTs) et son impact sur les moteurs de recherche de l’IST.</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-bottom:11px; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">3. Envisager les nouveaux usages et pratiques des utilisateurs des moteurs de recherche scientifiques nés de l’association : « GPT-IST-MRS ».</span></span></span></p>
<h2 style="text-align:justify; margin-top:11px; margin-bottom:5px"><span style="font-size:14pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="font-weight:normal">Méthodologie </span></span></span></span></span></h2>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Une méthode souvent décrite comme étant « très technique » (Seurrat, 2014), l’analyse de contenu s’est transposée au web : « Un système documentaire construit sur Internet dans lequel les documents, nommés hypertextes ou pages web, sont reliés les uns aux autres par des hyperliens » (Magué, 2014). Afin de revêtir une connotation linguistique adaptée à son terrain le web, elle a dû changer d’appellation. C’est la naissance du web scraping, « une technique d’extraction du contenu de sites Web publics avec des données publiques, via un script ou un programme, dans le but de les exploiter différemment » (Canevet et al., 2020). Autrement dit, un processus d’extraction au moyen d’un web scraper (programme ou extension) qui accède à la partie accessible d’une page web afin de collecter des informations. Ces données peuvent servir à divers objectifs tels que commerciaux, scientifiques ou ludiques, etc. Avec les récentes évolutions dans le domaine de l’intelligence artificielle, cette méthode peut être intégrée aux programmes d’IA pour leur permettre de collecter des données à partir de diverses sources sur le web (E. Barbee, 2023). Un web scraper a la possibilité de lire le code source (html) d’une page web (Lethier, 2019). Le web scraping n’est pas une pratique illégale. En fonction de l’objectif scientifique, commercial, et autre, il existe un seuil de tolérance. Du moment où les données extraites ne sont pas à caractère personnel, leur collecte est généralement autorisée. Cependant, si les données sont de nature personnelle, un consentement préalable est nécessaire avant toute opération d’extraction. Le processus de web scraping se décline en trois étapes : l’accès à la ressource via une URL (Uniform Resource Locator) à l’aide du protocole HTTP (HyperText Transfer Protocol) ; l’analyse du code source (HTML) et l’extraction de la page web ; la construction du format de sorti des données (Glez-Peña et al., 2014). Par ailleurs, nous avons également mobilisé une seconde méthode à savoir : l’observation empirique afin de déboucher dans une expérimentation. En quoi a consisté cette méthode ? </span></span></span></p>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Pour définir l'observation empirique, il sera primordial pour nous d’expliciter la notion d’observation en elle-même. Car celle-ci, est fréquente et commune en sciences humaines et sociales. Par conséquent, l’observation consiste en une mise en œuvre, d'une série d'actions destinées à appréhender l'objet d'étude dans un temps défini. De sorte à penser au, comment l'observateur doit se positionner afin que les résultats de son observation soient le reflet fidèle de son interaction avec l'objet d'étude. Et que de cette observation émerge spontanément des éléments de réponse qui enrichiront le questionnement de l’observateur (Le Guern, 2013). Ainsi, nous déduisons que l’observation empirique dont nous faisons allusion dans cet article, serait à la fois, la mobilisation (des capacités : visuelles, auditives, cognitives, neurologiques, physiques, et parfois même vocale), et la combinaison d’une série d’actions au sein d’un moteur de recherche scientifique (dispositif d’accès à l’information) durant une expérience de recherche documentaire ou informationnelle. La première recherche supposant l’obtention d’un produit documentaire. Et la seconde recherche donnant lieu à des fragments d’information exclus de leur contexte d’origine. En somme, si nous avons choisi d’opter pour ces deux méthodes de recherche bien que technique, c’est tout simplement parce qu’elles étaient faciles à mettre en œuvre, réduisant ainsi les contraintes de mobilité, de droit de réponse et, parfois, de coût.</span></span></span></p>
<h2 style="text-align:justify; margin-top:11px; margin-bottom:5px"><span style="font-size:14pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="font-weight:normal">Résultats </span></span></span></span></span></h2>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Cette section présente, les résultats obtenus, elle traite de l'IST en soulignant les insuffisances conceptuelles de cette notion tout en proposant des perspectives pour un réajustement conceptuel. Ensuite, elle clarifie les concepts de LLM et GPT, en illustrant la complémentarité existante entre ces deux termes ainsi que les implications techniques qu'ils engendrent, telles que nous les vivons actuellement. Elle pose également les bases d'un débat persistant dans la communauté scientifique celui de : quel LLM serait le plus efficace ? Par la suite, elle va aller chercher à comprendre, le moteur de recherche scientifique en tant que dispositif d'accès à un type spécifique d'information, en particulier l'information scientifique et technique, et offre un aperçu des caractéristiques distinctives qui en découlent. Enfin, elle se penche sur une pratique scientifique émergente issue de l'utilisation de l'intelligence artificielle générative, et des codes à maîtriser pour l’exploiter.</span></span></span></p>
<h2 style="text-align:justify; margin-top:11px; margin-bottom:5px"><span style="font-size:14pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="font-weight:normal">IST : canaux, acteurs et produits documentaires </span></span></span></span></span></h2>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Le ministère de l'Enseignement supérieur et de la Recherche, définit l’information scientifique comme étant : « L'ensemble des informations produites par la recherche et nécessaires à l'activité scientifique et intervient donc en amont et en aval dans tout le cycle de production de nouveaux contenus scientifiques quelle que soit leur forme : articles, données, ouvrages, archives ouvertes, etc.» (Ministère de l’Enseignement supérieur et de la Recherche, 2020). Dans cette définition, plusieurs dimensions de l'Information Scientifique et Technique (IST) méritent d'être soulignées : la première est qu'elle constituerait un ensemble d'informations. Qu'est-ce que l'information ? Il s'agit d'un ensemble de données collectées dans un objectif précis, tel que la présentation, la diffusion, l'éveil des consciences, la sensibilisation ou l'incitation à l'action. Cependant, ces données, sans un processus de désambiguïsation, restent inutiles. C'est pourquoi ce processus implique soit un traitement axé sur la forme, soit sur l'interprétation (le sens) (UNESCO, 2024). La seconde dimension révèle que sa production est attribuée à un cadre professionnel, social, et même institutionnel, c'est-à-dire à un écosystème spécifique. Enfin, la troisième dimension indique qu'elle contribuerait à enrichir une pratique scientifique s'exerçant tant au sein des académies qu'à l'extérieur. Si l'IST a le mérite d'introduire de nouveaux contenus scientifiques dans son écosystème, le fait de choisir de ne pas mentionner toutes les formes qu'elle pourrait adopter transmet un message d'incertitude et de non-maîtrise de sa chaîne éditoriale. D'où la décision volontaire et paradoxale de limiter l'IST. Rappelons que, selon sa troisième dimension, l'IST émane non pas d'une seule sphère, mais de deux : académique et hors académique, qui contribuent à cette production. </span></span></span></p>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Cette dualité nous amène à considérer que, sous cet angle, la définition de l'IST est obsolète, car elle ne reflète pas fidèlement l'organisation de cet écosystème. Nous estimons qu'il existe d'une part une IST issue du milieu académique, encadrée par les pairs et supposant que toute nouvelle production documentaire soit soumise à leur évaluation, et d'autre part, que chaque production documentaire devrait faire l'objet d'une publication scientifique. Ce qui n’est pas totalement le cas de l’IST issue hors du milieu académique, celle-ci mettrait en avant la publication scientifique qui consisterait à mettre à disposition, rendre accessible le savoir scientifique suivant une modalité de diffusion permettant l’accès à ce savoir. Dans cette seconde sphère, nous avons une volonté de démocratiser le savoir de sorte qu’il soit un bien commun (à la portée de tous). Fort, de ce qui précède, nous constatons la complexité de définir l'Information Scientifique et Technique (IST) à partir d'une énumération des productions documentaires, une approche que de nombreux articles scientifiques sur le sujet adoptent. Peut-être qu'en réalisant une cartographie des canaux, des acteurs et des productions documentaires, nous pourrions aboutir à une définition plus holistique de cette notion ? D’emblée, pour entrevoir les canaux de l’IST, il faut avoir une vision centrée dispositif d’accès à cette IST. Sans verser dans l’énumération comme les précédentes recherches sur le sujet nous entrevoyons l’information scientifique et technique sur deux types de dispositifs : les dispositifs verticaux ou spécialisés, liés au secteur de la recherche scientifique et les dispositifs horizontaux ou généraux qui sont extrascientifiques. Ci-dessous quelques exemples : </span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Les réseaux sociaux : X, LinkedIn (horizontaux) Academia, Researchgate (verticaux)</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Les sites web : The Conversation (verticaux)</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Les blogs : WordPress, Medium (horizontaux), Hypothèses (verticaux)</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Les moteurs de recherche : Google (horizontaux), Isidore (verticaux)</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Les plateformes d’hébergement audiovisuel : Canal U (verticaux), YouTube (horizontaux),</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Les bibliothèques numériques : Unesco (verticaux), Gallica, Internet Archive (horizontaux)</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Les plateformes scientifiques : Istex, Huma-Num (verticaux)</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Les catalogues bibliographiques : Sudoc, Calames (verticaux), Worldcat (horizontaux)</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Les portails scientifiques : Bib Cnrs, Portail Cirad du libre Accès (verticaux)</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Les plateformes d’enregistrement de Digital Object Identifier (DOI) : Crossref, DataCite (verticaux) </span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-bottom:11px; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Les dépôts : HAL, Zenodo, Nakala (verticaux), GitHub (horizontaux)</span></span></span></p>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Comme l'illustre l'exemple ci-dessus, les canaux d’accès à l’IST, sont multiples. L'une des raisons de cette prolifération pourrait être attribuée aux coûts exorbitants associés tant à la publication qu'à la consultation des publications scientifiques, souvent hébergés par des éditeurs spécialisés. Ainsi, les dispositifs alternatifs apparaissent comme une solution à cette problématique de visibilité et d'accès à l'information scientifique et technique. Ces nouvelles voies offrent une opportunité de démocratiser la connaissance et de favoriser un partage plus équitable des découvertes scientifiques (HAMEAU, 2022). Cependant, quels sont les acteurs de l’IST ? </span></span></span></p>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">D’emblée, les acteurs de l’IST proviennent principalement de deux milieux : l'académique et l'extra-académique. L'union de ces deux sphères forme la communauté scientifique. Au sein de chaque milieu, on trouve des entités morales et des individus. Dans le milieu académique, en termes d’individus, nous avons par exemple des apprentis, constitués des étudiants et des doctorants, ainsi que des enseignants-chercheurs, qui sont qualifiés d’experts. La communauté des lecteurs ou profanes, quant à elle, peut être vue comme représentative des curieux, car tous ne sont pas nécessairement spécialistes du domaine. Quant aux entités morales, elles peuvent être constituées d'établissements d'enseignement supérieur, de bibliothèques, d'éditeurs, d'unités de recherche, de réseaux, de consortiums, etc. Les acteurs de l'Information Scientifique et Technique (IST) n'existent que par leur capacité à réaliser des productions documentaires qui nourrissent l’écosystème éditorial de l’IST et à être cités par ceux qui réutilisent ces productions. Quelles sont ces productions documentaires ? Concernant ces productions, nous en dénombrons deux grandes catégories : les publications scientifiques et les documents utiles. En effet, les publications scientifiques peuvent être composées de « cahiers de laboratoires, rapports, actes de colloques, séminaires, thèses, articles, ouvrages, brevets, cours, manuels » (Delmotte, 2009), tandis que les documents utiles sont composés en grande majorité de documents extra-académiques et académiques. Il s'agit spécifiquement des documents diffusés dans des dispositifs horizontaux et verticaux : réseaux sociaux et outils collaboratifs (plateformes de publication, éditeurs en open access, éditeurs de vidéos ou de data journals, blogs, etc.) (Zeghmouri, 2021). Ces derniers, parfois qualifiés de « preprint », ne seraient pas soumis aux contraintes habituelles de l’évaluation par les pairs (Dassa & Kosmopoulos, 2021). Qu’est-ce que l’intelligence artificielle générative ? Qu’est-ce qu’un moteur de recherche scientifique ? Comment les GPTs impactent les moteurs scientifiques dédiés à l’IST ? </span></span></span></p>
<h2 style="text-align:justify; margin-top:11px; margin-bottom:5px"><span style="font-size:14pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="font-weight:normal">IA GÉNÉRATIVE : GPT et moteurs scientifiques de l’IST</span></span></span></span></span></h2>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">L’intelligence artificielle générative est une technologie utilisée dans la conception, des systèmes informatiques tels que les moteurs de recherche, les agents conversationnels et les traducteurs, etc. Elle est capable de générer du contenu à partir des données d’entraînement, qu’il s’agisse de textes, de dessins à main levée, d’images, d’enregistrements sonores ou vidéos. Elle se sert des méthodes de deep learning (DL), machine learning (ML) et du traitement du langage naturel (NLP) pour apprendre à la machine (Lamri et al., 2023). Par ailleurs, le fonctionnement d'une intelligence artificielle générative dépend essentiellement de la performance de son grand modèle de langage ou large language model (LLM). À cet effet, il existe des modèles de langage visuel, ou Vision Language Models (VLM), qui sont utilisés pour des tâches associées à tout artefact visuel. Les modèles de langage multimodaux, ou Multimodal Language Models (MLM), servent à des tâches qui combinent la vision et le traitement du langage. Enfin, les grands modèles de langage, ou Large Language Models (LLM), sont dédiés exclusivement au traitement du langage. Cet article se concentre sur l'analyse des Transformeurs génératifs pré-entraînés ou Generative Pre-trained Transformers (GPT), qui représentent une catégorie de LLM à portée générale. Car ils sont capables d'effectuer des tâches telles que la traduction, la classification, la rédaction et la génération de code source. Aussi une fois intégrés à un outil ou dispositif technique, ils peuvent augmenter la productivité de celui-ci de 47 à 56 % (Eloundou et al., 2023). C’est la raison pour laquelle plusieurs entreprises se sont lancées dans leur conception, notamment OpenAI. Une entreprise basée aux États-Unis, et fondée en 2015, par Andrej Karpathy, Durk Kingma, Elon Musk, Greg Brockman, Ilya Sutskever, John Schulman, Pamela Vagata, Sam Altman, Trevor Blackwell, Vicki Cheung, Wojciech Zaremba. Les principaux domaines d'expertise d'OpenAI incluent l'intelligence artificielle (IA), l'IA générative, l'apprentissage automatique (Machine Learning) et le traitement automatique du langage naturel (Natural Language Processing), ainsi que le développement de logiciels (Crunchbase, 2024). En 2023, elle a réalisé un chiffre d'affaires de 2 milliards de dollars et est actuellement évaluée à 86 milliards de dollars américains, avec une croissance annuelle de 900 % (Sacra, 2024). Cette entreprise a été l'une des pionnières dans le développement des technologies GPTs. Elle a publié quatre versions qui sont toujours utilisées à ce jour : GPT-1, conçu en 2018, a été entraîné avec un corpus de 7 000 livres (Radford & Narasimhan, 2018). GPT-2, créé en 2019, a un corpus dont les données sont inconnues du public. Cependant, les expérimentations suggèrent qu'environ 825 gigaoctets de données ont été nécessaires pour son entraînement (Gao et al., 2020). GPT-3, créé en 2020, a été développé à partir de plusieurs milliards de données massives obtenues par exploration et filtrage de texte (Brown et al., 2020). GPT-4, créé en 2023, a un corpus dont les données sont également inconnues du public, mais les expérimentations indiquent que 33 milliards de paramètres avaient été nécessaires pour sa mise en œuvre (Su et al., 2024). Par ailleurs, il est important de rappeler qu’il existe d’autres LLM qui se disputent la première place notamment : Gemini Ultra, Claude 3, PALM 540B, Llama 2-70B, Megatron-Turing NLG 530B, RoBERTa Large, BERT-Large, Transformer et AlexNet. Ces modèles ont été respectivement développés par Google, Anthropic, Google, Microsoft et Nvidia, Meta, Google, Google, Université de Toronto (Stanford University, 2024). Selon l’AI Index report 2024 publié par l’université de Stanford, le secteur académique serait le troisième secteur le plus impacté par les LLMs. Ce qui nous amène à aller questionner les dispositifs utilisés dans ce secteur notamment le moteur de recherche scientifique. Qu’est-ce qu’un moteur de recherche scientifique ? Existe-t-il des moteurs de recherche de l’IST ayant pour socle technologique les GPT ? Que devons-nous retenir ?</span></span></span></p>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Un moteur de recherche scientifique identifie la littérature académique et scientifique : articles de revue scientifique, actes de congrès, ouvrages, brevets, prépublications, thèses, rapports de recherche, etc. (Malingre & Serres, 2012). En effet, la littérature exploitée par les moteurs semble résulter de l’action d’un collectif d’utilisateurs ou de contributeurs (scientifiques et profanes) qui collaborent de manière « bidirectionnelle » pour nourrir l’écosystème de l’IST. Ils mettent à disposition des productions dans des formats variés tels que le texte, l’image, la vidéo et le son, portant sur des problématiques de société telles que le changement climatique, les conflits armés, l’inflation, l’immigration, les cybermenaces, etc. Ce sont sur ces productions que les scientifiques s’appuient pour réaliser des publications scientifiques dignes d’intérêt pour la recherche et la société (Crettaz von Roten & Moeschler, 2010). En outre en analysant ces outils nous constatons que les moteurs : spécialisé, sémantique, métamoteur, participatif et hybride sont particulièrement utilisés au sein de l’écosystème IST. </span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Un moteur de recherche spécialisé, ou moteur de recherche vertical, est conçu pour répondre à des besoins, à un domaine précis tels que l’académique, le financier, la recherche d’images, etc.</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Un moteur de recherche sémantique : est un moteur de recherche développé avec les technologies du web sémantique avec une particularité celle de saisir le sens lié au besoin formulé par l’utilisateur. </span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Un métamoteur : est un moteur de recherche qui pour constituer son index va aller moissonner les index des autres moteurs de recherche. Cette approche même si elle est encadrée par des conventions entre moteurs est parfois assimilé à du pillage (action de s’approprier les résultats d’un autre moteur). </span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Un moteur de recherche participatif est un moteur de recherche qui encourage activement l’interaction avec les utilisateurs. Cela peut inclure des actions telles que la collecte de fonds, la promotion de causes sociales ou l’évaluation collaborative des contenus, etc.</span></span></span></p>
<p style="text-align:justify; text-indent:-18pt; margin-bottom:11px; margin-left:48px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif"><span style="font-family:Symbol">· </span>Un moteur de recherche hybride naît de la combinaison de plusieurs dispositifs. C’est-à-dire qu’il intègre, des fonctionnalités provenant d’autres dispositifs afin d’optimiser ses performances, et de lui conférer des capacités transverses propres aux dispositifs impliqués.</span></span></span></p>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Cependant, il peut arriver que les recommandations faites par les moteurs ne correspondent pas au besoin de l’utilisateur (Lewandowski & Höchstötter, 2008). Qu’il y ait une absence de transparence dans les critères de sélection de l’information et l’exclusion de certains résultats (Steiner et al., 2022) et une prolifération de contenus marketings et des liens morts dans les pages de résultats (Bevendorff et al., 2024). Ces éléments constituent des biais qui méritent d’être observés en utilisant un moteur de recherche scientifique de l’IST. Lancé en 2023, ELICIT est un moteur de recherche à la fois de type : sémantique, spécialisé, métamoteur et hybride. Il interprète le sens des requêtes, et est doté des technologies du web sémantique : HTML, RDF, SKOS, Open Graph, etc. Il permet de rechercher des publications scientifiques, en moissonnant d'autres moteurs de recherche comme Semantic Scholar, ainsi que des catalogues et archives ouvertes telles que medRxiv. Ce moteur intègre les fonctionnalités d'un moteur de recherche, d'un agent conversationnel et d'un flux de travail. Il permet l'extraction de concept, la recherche sémantique et la synthèse des résultats de recherche sous forme de résumés. Il propose également des fonctionnalités de bibliothèque, tri, d'enregistrement et d'exportation des données dans des formats bibliographiques tels que : Comma-separated values (.csv), BibLaTeX et BibTeX (.bib), d’importation de fichier et d’interopérabilité avec Zotero. De plus, il facilite l'extraction d'informations à partir de fichiers PDF. Enfin, il a la particularité d’être monolingue, et repose sur un modèle d’affaire basé sur la vente de crédits d'utilisation et son index contient plus de 1 000 000 de résultats (figure 1).</span></span></span></p>
<p align="center" class="MsoCaption" style="text-align:center; margin-bottom:13px"><span style="font-size:9pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="color:#0e2841"><span style="font-style:italic"><span style="font-size:12.0pt"><span style="line-height:150%"><span style="font-style:normal">Figure </span></span></span><span style="font-size:12.0pt"><span style="line-height:150%"><span style="font-style:normal">1</span></span></span><span style="font-size:12.0pt"><span style="line-height:150%"><span style="font-style:normal"> : interface d’accueil d'ELICIT</span></span></span></span></span></span></span></span></span></p>
<p align="center" style="text-align:center; margin-bottom:11px"><img height="822" src="https://www.numerev.com/img/ck_568_1_image-20240625134248-1.png" width="1900" /></p>
<h2 style="text-align:justify; margin-top:11px; margin-bottom:5px"><span style="font-size:14pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="font-weight:normal">GPT-IST-MRS : nouveaux usages et pratiques </span></span></span></span></span></h2>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">L'union tripartite des transformeurs génératifs pré-entraînés, de l'information scientifique et technique, ainsi que des moteurs de recherche scientifiques, a fait évoluer les usages et les pratiques autrefois dévolus aux moteurs de recherche scientifiques. Autrefois, un moteur de recherche scientifique servait exclusivement à effectuer de la recherche informationnelle et documentaire à l'aide de requêtes textuelles. Avec l'arrivée des GPTs, nous avons assisté à la naissance de la recherche visuelle : qui consiste à adresser une requête à un moteur de recherche à l’aide d’une image ou d’une photo. Puis la recherche vocale : qui consiste à adresser une requête à un moteur de recherche à l’aide de sa voix ou d’un signal sonore. Pour quel but ? Premièrement, pour démocratiser l'accessibilité aux dispositifs d'accès à l'information pour tout type d'utilisateur. Deuxièmement, pour faciliter l'expérience utilisateur en enrichissant les processus d'évaluation de l'information. Troisièmement, pour simplifier la formulation des requêtes, car l'approche textuelle posait des difficultés à certains utilisateurs pour exprimer clairement leurs besoins en information. Quatrièmement pour faciliter l’extraction et la transcription d’information : image vers du texte ou son vers du texte. Cependant, si les GPTs ont refaçonné les usages au sein des moteurs de recherche scientifiques ils ont également le mérite d’avoir développé une nouvelle pratique nommée le « prompt engineering » ou ingénierie de requête. Mais qu’est-ce que c’est ? Et comment le mettre en œuvre ? Le Prompt Engineering consiste à formaliser à l’attention d’une IA générative l’ensemble des spécifications créatives souhaitées. Cela requiert à la fois des compétences artistiques, techniques et imaginatives (Nadeau & Jobin, 2024). Pour mettre en œuvre cette pratique, il faut, dans un premier temps, penser à une vision séquentielle d'un algorithme d'IA : </span></span></span></p>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Premièrement, sélectionner un verbe à l'infinitif pour exprimer clairement vos attentes envers l'IA, telles que traduire un texte ou créer une image. Deuxièmement, attribuer un nom spécifique à la tâche que vous attendez de l'IA. Troisièmement, déterminer le style créatif désiré, qu'il soit graphique, littéraire, musical, etc. Quatrièmement, préciser le format de sortie souhaité, comme PNG, JPG, XLS, entre autres. Cinquièmement, définir les dimensions requises, qui dépendront du format de sortie choisi. Enfin, considérer la mise en page, c'est-à-dire comment l'IA organisera le contenu sur le support choisi. Chaque élément ci-dessus contribue à nourrir le contexte de création et oriente le GPT dans un processus de conception qui respecte les attentes de l'utilisateur. Les figures 2 et 3 ci-dessous présentent une application de cette méthodologie.</span></span></span></p>
<p style="text-align:justify; margin-bottom:11px"> </p>
<p align="center" class="MsoCaption" style="text-align:center; margin-bottom:13px"><span style="font-size:9pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="color:#0e2841"><span style="font-style:italic"><span style="font-size:12.0pt"><span style="line-height:150%"><span style="font-style:normal">Figure </span></span></span><span style="font-size:12.0pt"><span style="line-height:150%"><span style="font-style:normal">2</span></span></span><span style="font-size:12.0pt"><span style="line-height:150%"><span style="font-style:normal"> : phase de requêtage au GPTs</span></span></span></span></span></span></span></span></span></p>
<p align="center" style="text-align:center; margin-bottom:11px"><img height="454" src="https://www.numerev.com/img/ck_568_1_image-20240625134248-2.png" width="863" /></p>
<p align="center" class="MsoCaption" style="text-align:center; margin-bottom:13px"> </p>
<p align="center" class="MsoCaption" style="text-align:center; margin-bottom:13px"><span style="font-size:9pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="color:#0e2841"><span style="font-style:italic"><span style="font-size:12.0pt"><span style="line-height:150%"><span style="font-style:normal">Figure </span></span></span><span style="font-size:12.0pt"><span style="line-height:150%"><span style="font-style:normal">3</span></span></span><span style="font-size:12.0pt"><span style="line-height:150%"><span style="font-style:normal"> : phase de réponse du GPTs</span></span></span></span></span></span></span></span></span></p>
<p align="center" style="text-align:center; margin-bottom:11px"><img height="1011" src="https://www.numerev.com/img/ck_568_1_image-20240625134248-3.png" width="1852" /></p>
<p style="text-align:justify; margin-bottom:11px"> </p>
<h2 style="text-align:justify; margin-top:11px; margin-bottom:5px"><span style="font-size:14pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="font-weight:normal">Conclusion </span></span></span></span></span></h2>
<p style="text-align:justify; margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">En définitive l’information scientifique et technique, fait référence à des productions documentaires : publications scientifiques à la suite d’un processus d’évaluation par les pairs d’une part, des documents utiles non évalués, mais diffusé en fonction d’une stratégie éditoriale, pour leur intérêt scientifique d’autre part. Ces productions documentaires sont issues du milieu académique et extra-académique et sont la résultante de l’activité d’individus et d’entités morales qui diffusent à travers des dispositifs verticaux, au sein du milieu académique et horizontaux au-delà. Cependant, il est courant de trouver des biais dans des moteurs de recherche scientifique tels qu'ELICIT, qui présentent parfois des URL invalides et des résumés partiels. Il est indéniable que GPT-4 a grandement contribué à améliorer la qualité de ces résultats, bien que son référencement reste incomplet, car il indexe uniquement des publications scientifiques pour l’instant. Pour optimiser le moissonnage, l'indexation, le classement et la présentation des résultats au sein d'un moteur de recherche scientifique, il est judicieux de combiner les GPTs ou LLMs pour le cas spécifique de l'intelligence artificielle générative. En effet, un VLM et un MLM pourraient faciliter l'identification des artefacts à moissonner : textes, images, vidéos et sons. De plus, un LLM et un MLM permettraient d'indexer des résultats, notamment en saisissant le sens et en générant une grammaire sémantique pour faciliter la découvrabilité par les robots d'indexation, cela contribuerait à réduire également les erreurs syntaxiques. En outre, un MLM pourrait également aider à classer les résultats selon leur pertinence ou tout autre critère relatif à la stratégie éditoriale du moteur. Enfin, un VLM et un MLM pourraient assister dans la présentation des résultats, et générer le code source nécessaire à la mise en page d’interfaces utilisateurs afin de présenter les résultats selon les besoins de l'utilisateur : textes pour des inventaires, notices, résumés et autres, images pour des graphiques, vidéos pour des clips, et son pour des écoutes. Dans cette méthodologie, il ne s'agit pas de choisir un LLM ou GPT en particulier possédant toutes ces capacités, mais plutôt de les combiner afin de renforcer leur efficacité, sans oublier d'intégrer comme sources à moissonner les canaux verticaux et horizontaux riches en publications scientifiques et documents utiles.</span></span></span></p>
<h2 style="text-align:justify; margin-top:11px; margin-bottom:5px"><span style="font-size:14pt"><span style="line-height:150%"><span style="break-after:avoid"><span style="font-family:"Arial", sans-serif"><span style="font-weight:normal">Bibliographie </span></span></span></span></span></h2>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Bevendorff, J., Wiegmann, M., Potthast, M., & Stein, B. (2024). Is Google Getting Worse? A Longitudinal Investigation of SEO Spam in Search Engines. <i>Advances in Information Retrieval. 46th European Conference on IR Research (ECIR 2024)(Lecture Notes in Computer Science). Springer</i>. <a href="http://seroundtable.s3.amazonaws.com/bevendorff_2024a.pdf" style="color:#467886; text-decoration:underline">http://seroundtable.s3.amazonaws.com/bevendorff_2024a.pdf</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). <i>Language Models are Few-Shot Learners</i> (arXiv:2005.14165). arXiv. <a href="https://doi.org/10.48550/arXiv.2005.14165" style="color:#467886; text-decoration:underline">https://doi.org/10.48550/arXiv.2005.14165</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Cahier: Applications et enjeux de l’intelligence artificielle (IA). (2023). Management & Avenir, 137(5), 65–67. <a href="https://doi.org/10.3917/mav.137.0065" style="color:#467886; text-decoration:underline">https://doi.org/10.3917/mav.137.0065</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Canevet, F., Gambatto, G., & Zongo-Martin, O. (2020). Semaine 7. Automatisez pour lancer une campagne de propagande. In Le Growth Hacking: Vol. 2e éd. (pp. 221–233). Dunod. <a href="https://www.cairn.info/le-growth-hacking--9782100806485-p-221.htm" style="color:#467886; text-decoration:underline">https://www.cairn.info/le-growth-hacking--9782100806485-p-221.htm</a> </span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Crettaz von Roten, F., & Moeschler, O. (2010). Les relations entre les scientifiques et la société. <i>Sociologie</i>, <i>1</i>(1), 45–60. <a href="https://doi.org/10.3917/socio.001.0045" style="color:#467886; text-decoration:underline">https://doi.org/10.3917/socio.001.0045</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Crunchbase. (2024). <i>OpenAI - Crunchbase Company Profile & Funding</i>. Crunchbase. <a href="https://www.crunchbase.com/organization/openai" style="color:#467886; text-decoration:underline">https://www.crunchbase.com/organization/openai</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Dassa, M., & Kosmopoulos, C. (2021). Les évolutions transversales de l’information scientifique et technique avec l’apparition du numérique. <i>Histoire de La Recherche Contemporaine</i>, <i>Tome X-n°2</i>. <a href="https://doi.org/10.4000/hrc.6097" style="color:#467886; text-decoration:underline">https://doi.org/10.4000/hrc.6097</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Delmotte, S. (2009). Publications scientifiques en sciences humaines. L’argumentation dans l’accès aux savoirs dans l’édition numérique. <i>Les Cahiers du numérique</i>, <i>5</i>(2), 53–84. Cairn.info. <a href="https://www.cairn.info/revue-les-cahiers-du-numerique-2009-2-page-53.htm" style="color:#467886; text-decoration:underline">https://www.cairn.info/revue-les-cahiers-du-numerique-2009-2-page-53.htm</a> </span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">E. Barbee, J. (2023, December 22). Scratching the Surface of IP Rights: Data Scraping and Artificial Intelligence. New York State Bar Association. <a href="https://nysba.org/scratching-the-surface-of-ip-rights-data-scraping-and-artificial-intelligence/" style="color:#467886; text-decoration:underline">https://nysba.org/scratching-the-surface-of-ip-rights-data-scraping-and-artificial-intelligence/</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Eloundou, T., Manning, S., Mishkin, P., & Rock, D. (2023). <i>GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models</i> (arXiv:2303.10130). arXiv. <a href="https://doi.org/10.48550/arXiv.2303.10130" style="color:#467886; text-decoration:underline">https://doi.org/10.48550/arXiv.2303.10130</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Fourtané, S. (2019). The Three Types of Artificial Intelligence : Understanding AI. Interesting Engineering. <a href="https://ir.westcliff.edu/wp-content/uploads/2020/01/The-Three-Types-of-Artificial-Intelligence-Understanding-AI.pdf" style="color:#467886; text-decoration:underline">https://ir.westcliff.edu/wp-content/uploads/2020/01/The-Three-Types-of-Artificial-Intelligence-Understanding-AI.pdf</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., Foster, C., Phang, J., He, H., Thite, A., Nabeshima, N., Presser, S., & Leahy, C. (2020). <i>The Pile: An 800GB Dataset of Diverse Text for Language Modeling</i> (arXiv:2101.00027). arXiv. <a href="https://doi.org/10.48550/arXiv.2101.00027" style="color:#467886; text-decoration:underline">https://doi.org/10.48550/arXiv.2101.00027</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Glez-Peña, D., Lourenço, A., López-Fernández, H., Reboiro-Jato, M., & Fdez-Riverola, F. (2014). Web scraping technologies in an API world. Briefings in Bioinformatics, 15(5), 788–797. <a href="https://doi.org/10.1093/bib/bbt026" style="color:#467886; text-decoration:underline">https://doi.org/10.1093/bib/bbt026</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">HAMEAU, T. (2022). <i>Activité de Knowledge Exchange: Plateformes de publication “alternatives”-Date: 21 avril 2022</i>. <a href="https://policycommons.net/artifacts/3780510/activite-de-knowledge-exchange/4586272/" style="color:#467886; text-decoration:underline">https://policycommons.net/artifacts/3780510/activite-de-knowledge-exchange/4586272/</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Lamri, J., Tertrais, G., & Silver, A. (2023). Chapitre 1. Comprendre les IA génératives et leur portée. In Travailler à l’ère des IA génératives (pp. 23–67). EMS Editions. <a href="https://www.cairn.info/travailler-a-l-ere-des-ia-generatives--9782376877806-p-23.htm" style="color:#467886; text-decoration:underline">https://www.cairn.info/travailler-a-l-ere-des-ia-generatives--9782376877806-p-23.htm</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Le Guern, P. (2013). L’observation: Méthodes et enjeux: In Introduction à la recherche en SIC (pp. 13–33). Presses universitaires de Grenoble. <a href="https://doi.org/10.3917/pug.legav.2013.01.0013" style="color:#467886; text-decoration:underline">https://doi.org/10.3917/pug.legav.2013.01.0013</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Lethier, V. (2019). Web Scraping [Formation]. <a href="https://mshe.univ-fcomte.fr/documents/pft/page_ateliers_formations/trucs_PFT_WEB_SCRAP_190411.pdf" style="color:#467886; text-decoration:underline">https://mshe.univ-fcomte.fr/documents/pft/page_ateliers_formations/trucs_PFT_WEB_SCRAP_190411.pdf</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Lewandowski, D., & Höchstötter, N. (2008). Mesurer la qualité des moteurs de recherche Web (B. Simonnot, Trans.). <i>Questions de communication</i>, <i>14</i>, Article 14. <a href="https://doi.org/10.4000/questionsdecommunication.672" style="color:#467886; text-decoration:underline">https://doi.org/10.4000/questionsdecommunication.672</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Magué, J.-P. (2014). Les protocoles d’Internet et du web. In Pratiques de l’édition numérique. Les Ateliers de [sens public]. <a href="https://www.parcoursnumeriques-pum.ca/1-pratiques/chapitre8.html" style="color:#467886; text-decoration:underline">https://www.parcoursnumeriques-pum.ca/1-pratiques/chapitre8.html</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Malingre, M.-L., & Serres, A. (2012). <i>Connaître les moteurs de recherche scientifique</i>. <a href="https://fr.slideshare.net/UrfistRennes/les-moteurs-de-recherche-scientifique" style="color:#467886; text-decoration:underline">https://fr.slideshare.net/UrfistRennes/les-moteurs-de-recherche-scientifique</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">McCarthy, J. (1998). What is artificial intelligence? <a href="http://jmc.stanford.edu/articles/whatisai/whatisai.pdf" style="color:#467886; text-decoration:underline">http://jmc.stanford.edu/articles/whatisai/whatisai.pdf</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">McCarthy, J. (2012). <i>Professor John McCarthy</i>. <a href="http://jmc.stanford.edu/index.html" style="color:#467886; text-decoration:underline">http://jmc.stanford.edu/index.html</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Ministère de l’Enseignement supérieur et de la Recherche. (2020). <i>Information scientifique et technique</i>. enseignementsup-recherche.gouv.fr. <a href="https://www.enseignementsup-recherche.gouv.fr/fr/information-scientifique-et-technique-51161" style="color:#467886; text-decoration:underline">https://www.enseignementsup-recherche.gouv.fr/fr/information-scientifique-et-technique-51161</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Minsky, M., & Papert, S. A. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. <a href="https://russell-davidson.arts.mcgill.ca/e706/Perceptrons.pdf" style="color:#467886; text-decoration:underline">https://russell-davidson.arts.mcgill.ca/e706/Perceptrons.pdf</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Nadeau, P., & Jobin, K. (2024). 3. L’IA par SECTEUR. In <i>Intelligence artificielle: Génération Générative</i> (pp. 44–114). Dunod. <a href="https://www.cairn.info/intelligence-artificiellegeneration-generative--9782100860708-p-44.htm" style="color:#467886; text-decoration:underline">https://www.cairn.info/intelligence-artificiellegeneration-generative--9782100860708-p-44.htm</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Organisation de coopération et de développement économiques (OCDE). (2019). 3. Applications de l’intelligence artificielle. In L’intelligence artificielle dans la société (pp. 53–91). Éditions de l’OCDE. <a href="https://www.cairn.info/l-intelligence-artificielle-dans-la-societe--9789264353343-p-53.htm" style="color:#467886; text-decoration:underline">https://www.cairn.info/l-intelligence-artificielle-dans-la-societe--9789264353343-p-53.htm</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Radford, A., & Narasimhan, K. (2018). <i>Improving Language Understanding by Generative Pre-Training</i>. <a href="https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf" style="color:#467886; text-decoration:underline">https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Rifkin, G. (2016, January 25). Marvin Minsky, Pioneer in Artificial Intelligence, Dies at 88. The New York Times. <a href="https://www.nytimes.com/2016/01/26/business/marvin-minsky-pioneer-in-artificial-intelligence-dies-at-88.html" style="color:#467886; text-decoration:underline">https://www.nytimes.com/2016/01/26/business/marvin-minsky-pioneer-in-artificial-intelligence-dies-at-88.html</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Sacra. (2024). <i>OpenAI revenue, valuation & growth rate | Sacra</i>. <a href="https://sacra.com/c/openai/" style="color:#467886; text-decoration:underline">https://sacra.com/c/openai/</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Seurrat, A. (2014). Écrire un mémoire en sciences de l’information et de la communication: Récits de cas, démarches et méthodes. Presses Sorbonne nouvelle.</span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Stanford University. (2024). <i>Artificial Intelligence Index Report 2024</i> (p. 502). <a href="https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_2024_AI-Index-Report.pdf" style="color:#467886; text-decoration:underline">https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_2024_AI-Index-Report.pdf</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Steiner, M., Magin, M., Stark, B., & Geiß, S. (2022). Seek and you shall find? A content analysis on the diversity of five search engines’ results on political queries. <i>Information, Communication & Society</i>, <i>25</i>(2), 217–241. <a href="https://doi.org/10.1080/1369118X.2020.1776367" style="color:#467886; text-decoration:underline">https://doi.org/10.1080/1369118X.2020.1776367</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Su, H., Tian, Z., Shen, X., & Cai, X. (2024). <i>Unraveling the Mystery of Scaling Laws: Part I</i> (arXiv:2403.06563). arXiv. <a href="https://doi.org/10.48550/arXiv.2403.06563" style="color:#467886; text-decoration:underline">https://doi.org/10.48550/arXiv.2403.06563</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">UNESCO. (2024). Unité 4: Concepts et applications de l’éducation à l’information | Plateforme électronique d’éducation aux médias et à l’information. <a href="https://www.unesco.org/mil4teachers/fr/module3/unit4" style="color:#467886; text-decoration:underline">https://www.unesco.org/mil4teachers/fr/module3/unit4</a></span></span></span></p>
<p style="margin-bottom:11px"><span style="font-size:12pt"><span style="line-height:115%"><span style="font-family:"Arial", sans-serif">Zeghmouri, C. B. (2021). La fin de la publication scientifique ? Une analyse entre légitimité, prédation et automatisation. <i>Histoire de La Recherche Contemporaine</i>, <i>Tome X-n°2</i>. <a href="https://doi.org/10.4000/hrc.6184" style="color:#467886; text-decoration:underline">https://doi.org/10.4000/hrc.6184</a></span></span></span></p>