<h2>Le contexte l&eacute;gislatif et la m&eacute;thodologie d&rsquo;acquisition des ressources web &agrave; Biblioth&egrave;que et Archives Canada</h2> <p>Sous quelle autorit&eacute; Biblioth&egrave;que et Archives Canada (BAC) recueille-t-elle l&rsquo;Internet canadien ?</p> <p>Selon la Loi sur la Biblioth&egrave;que et les Archives du Canada (L.C. 2004), section 8(2) :</p> <p style="margin-left: 40px;"><strong>Attributions de l&rsquo;administrateur g&eacute;n&eacute;ral</strong></p> <p style="margin-left: 40px;">8&nbsp;(1)&nbsp;L&rsquo;administrateur g&eacute;n&eacute;ral peut prendre toute mesure qui concourt &agrave; la r&eacute;alisation de la mission de Biblioth&egrave;que et Archives du Canada et, notamment&nbsp;:</p> <p style="margin-left: 40px;"><strong>R&eacute;alisation d&rsquo;&eacute;chantillons &agrave; partir d&rsquo;Internet</strong></p> <p style="margin-left: 40px;">(2)&nbsp;Pour l&rsquo;application de l&rsquo;alin&eacute;a (1)a), l&rsquo;administrateur g&eacute;n&eacute;ral peut, &agrave; des fins de pr&eacute;servation, constituer des &eacute;chantillons repr&eacute;sentatifs, selon les modalit&eacute;s de temps ou autres qu&rsquo;il d&eacute;termine, des &eacute;l&eacute;ments d&rsquo;information pr&eacute;sentant un int&eacute;r&ecirc;t pour le Canada et accessibles au public sans restriction dans Internet ou par tout autre m&eacute;dia similaire.</p> <p>La loi &eacute;tait visionnaire &agrave; l&rsquo;&eacute;poque et d&eacute;rivait du r&ocirc;le de BAC en tant que membre fondateur du Consortium international pour la pr&eacute;servation d&rsquo;Internet (IIPC) en 2003. Selon l&rsquo;IIPC, l&rsquo;archivage web est le processus qui consiste &agrave; acqu&eacute;rir des parties du web, &agrave; effectuer la pr&eacute;servation num&eacute;rique de ces donn&eacute;es et &agrave; les rendre accessibles et utilisables. Ainsi, l&rsquo;objectif de l&rsquo;archivage du web &agrave; BAC est de pr&eacute;server et d&rsquo;assurer l&rsquo;acc&egrave;s futur aux ressources web qui sont un aspect essentiel du patrimoine documentaire du Canada.</p> <p>Le programme de Pr&eacute;servation du web et des m&eacute;dias sociaux est la m&eacute;thode principale pour r&eacute;aliser le mandat de BAC en lien avec l&#39;article 8(2) de la loi. Pour l&rsquo;acquisition du patrimoine documentaire num&eacute;rique du Canada publi&eacute; sur le web, nous avons &eacute;labor&eacute; un programme avec cinq activit&eacute;s strat&eacute;giques principales :</p> <ol> <li>Collection compl&egrave;te de la pr&eacute;sence web du Gouvernement du Canada (depuis 2005-)</li> <li>Collections de recherche th&eacute;matique sur le web et les m&eacute;dias sociaux (2009-)</li> <li>Documentation des &eacute;v&eacute;nements impr&eacute;vus d&#39;importance historique nationale (2013-)</li> <li>R&eacute;colte de sauvetage ou de conservation (2005-)</li> <li>Acquisition des ressources nomin&eacute;es (2005-)</li> </ol> <p>La cr&eacute;ation d&rsquo;archives web sur la COVID-19 et ses r&eacute;percussions sur le Canada fait appel aux strat&eacute;gies et aux m&eacute;thodologies inh&eacute;rentes aux activit&eacute;s num&eacute;ros 2 et 3.</p> <h2 style="text-align: justify;">Pourquoi l&rsquo;archivage web est-il important pour les &eacute;v&eacute;nements historiques nationaux&nbsp;? Pour qui organisons-nous une archive web sur la COVID-19&nbsp;?</h2> <p>La COVID-19 a d&eacute;montr&eacute; que l&rsquo;archivage web est l&rsquo;une des rares mesures que les professionnels de l&rsquo;information peuvent prendre imm&eacute;diatement pour pr&eacute;server un historique complet et ses ressources num&eacute;riques cl&eacute;s.</p> <p>Cependant, l&rsquo;archivage du web est rarement un simple geste de collecte de donn&eacute;es. Il existe des pr&eacute;jug&eacute;s humains (conscients et inconscients) dans le choix des ressources &agrave; inclure dans toute collection de recherche, et les archives web ne font pas exception &agrave; cette r&egrave;gle. Comment le caract&egrave;re et la facilit&eacute; d&rsquo;utilisation de l&rsquo;ensemble de donn&eacute;es recueillies sont-ils influenc&eacute;s par cela? De quelle fa&ccedil;on la s&eacute;lection des ressources &agrave; inclure dans la collection influe-t-elle sur les sujets qu&rsquo;elle peut &eacute;tudier ? (Milligan, 2019).</p> <p>Il est important de savoir que ces biais ont une incidence directe sur la s&eacute;lection des donn&eacute;es et, par cons&eacute;quent, sur la continuit&eacute; de l&rsquo;information. Lorsque nous consid&eacute;rons la nature dynamique et pr&eacute;caire du web, nous devons &ecirc;tre conscients du fait que notre s&eacute;lection d&rsquo;une ressource web pour l&rsquo;inclusion dans une archive web pourrait &ecirc;tre la seule action de pr&eacute;servation num&eacute;rique que la ressource re&ccedil;oit. Cela pourrait donc d&eacute;terminer si la ressource survit et si elle est accessible aux chercheurs de l&rsquo;avenir, ou si elle est perdue ou oubli&eacute;e. Ainsi, les archives web et l&rsquo;action de leur conservation num&eacute;rique peuvent fonctionner comme une sorte de &laquo; bateau de sauvetage num&eacute;rique &raquo; dans l&rsquo;oc&eacute;an des m&eacute;gadonn&eacute;es. Ce bateau pourrait d&eacute;terminer quelles voix survivent pour t&eacute;moigner des perspectives et de l&rsquo;histoire d&rsquo;une telle communaut&eacute;.</p> <p>Peu importe &agrave; quel point nous pr&eacute;tendons &ecirc;tre objectifs, ces pr&eacute;jug&eacute;s demeurent. En plus de la n&eacute;cessit&eacute; de lutter contre les pr&eacute;jug&eacute;s, nous sommes &eacute;galement limit&eacute;s par les ressources dont nous disposons et nous devons parfois prendre des d&eacute;cisions difficiles au sujet de nos collections. Cependant, il y a des strat&eacute;gies que nous pouvons &eacute;laborer et d&eacute;ployer pour essayer de cr&eacute;er des archives web qui sont aussi inclusives que possibles.</p> <p>Depuis 2005, les principaux partenaires et intervenants du programme de pr&eacute;servation du web et des m&eacute;dias sociaux de BAC sont les biblioth&egrave;ques universitaires qui s&rsquo;int&eacute;ressent aux donn&eacute;es f&eacute;d&eacute;rales et aux documents officiels, les chercheurs professionnels et le public. Qu&rsquo;est-ce que les chercheurs esp&egrave;rent trouver pour faciliter leur recherche &agrave; travers une masse de donn&eacute;es telle&nbsp;que les archives web ? Autrement dit, dans 20 ans, lorsqu&rsquo;un historien r&eacute;digera l&rsquo;histoire de la COVID-19 et de ses r&eacute;percussions sur le Canada, quelles sources et donn&eacute;es principales aimerait-il avoir&nbsp;?</p> <p>Nous devons nous poser cette question lorsque nous voulons organiser une collection sp&eacute;ciale de ressources web pour documenter quelque chose de pr&eacute;cis, comme un &eacute;v&eacute;nement historique. Il est &eacute;galement important d&rsquo;examiner comment les ressources web pourraient &ecirc;tre utilis&eacute;es dans les futurs contextes de donn&eacute;es de recherche (Smyth, 2022a). Nous pourrions explorer textuellement (textually mine) le contenu des archives web, des visualisations pourraient &ecirc;tre produites, des sujets obscurs r&eacute;&eacute;crits, des hyperliens analys&eacute;s pour leurs associations &agrave; d&rsquo;autres sites, des sentiments textuels et des images pourraient &ecirc;tre &eacute;tudi&eacute;s.</p> <p>Les chercheurs sont tr&egrave;s int&eacute;ress&eacute;s &agrave; avoir tout le domaine de premier niveau national canadien (c.‑&agrave;‑d. *.ca) pour la recherche (Milligan et Smyth, 2019). Lorsque cela n&rsquo;est pas possible, en raison d&rsquo;un manque de ressources ou de capacit&eacute; et qu&rsquo;un certain sous-ensemble du domaine doit &ecirc;tre s&eacute;lectionn&eacute; et acquis, nous devons nous assurer de saisir un ensemble de donn&eacute;es aussi vaste et diversifi&eacute; que possible &ndash; un peu comme les principes et les m&eacute;thodologies r&eacute;gissant le d&eacute;p&ocirc;t l&eacute;gal &agrave; une biblioth&egrave;que nationale. Mais en m&ecirc;me temps, il est &eacute;galement important de noter que ce ne sont pas tous les cr&eacute;ateurs de contenu canadien, par exemple, qui souhaitent ou ressentent le besoin d&rsquo;enregistrer leurs sites web utilisant un domaine .ca. Par cons&eacute;quent, le contenu web canadien ou le contenu d&rsquo;int&eacute;r&ecirc;t pour le Canada ne font pas tous partie du domaine .ca (Milligan et Smyth, 2019; Webster, 2019). Cela montre qu&rsquo;une strat&eacute;gie hybride de collecte de domaine et de ciblage de contenu pertinent &agrave; l&rsquo;ext&eacute;rieur du domaine est id&eacute;ale et n&eacute;cessaire (Milligan et Smyth, 2019; Webster, 2019).</p> <p>&nbsp;</p> <h2 style="text-align: justify;">Strat&eacute;gies pour documenter les &eacute;v&eacute;nements historiques nationaux : comment notre exp&eacute;rience, &agrave; ce jour, nous a-t-elle pr&eacute;par&eacute;s &agrave; documenter la COVID-19&nbsp;?</h2> <p>Pendant la pand&eacute;mie, il &eacute;tait important de g&eacute;rer le travail du projet d&rsquo;archivage web avec plus de pr&eacute;cision pour nous assurer que nous concentrions nos ressources limit&eacute;es sur les sujets et les activit&eacute;s prioritaires, afin d&rsquo;obtenir un rendement maximal. Pour ce faire, nous avons d&eacute;velopp&eacute; notre m&eacute;thodologie de gestion de projets d&rsquo;archivage web, bas&eacute;s sur les principes de d&eacute;veloppement des collections de biblioth&egrave;ques, pour l&rsquo;organisation et la conservation des collections d&rsquo;archives web th&eacute;matiques.</p> <p>Au d&eacute;but de 2016, apr&egrave;s avoir document&eacute; plusieurs &eacute;v&eacute;nements historiques nationaux (p. ex., les feux de for&ecirc;ts catastrophiques au Canada, le mouvement &laquo; Idle No More &raquo; en 2012, la catastrophe ferroviaire du Lac-M&eacute;gantic en 2014, l&rsquo;attaque sur la Colline du Parlement en 2014 et la mort de Leonard Cohen en 2016), le programme a d&eacute;cid&eacute; d&rsquo;&eacute;laborer une m&eacute;thodologie pour &eacute;valuer les sites web des m&eacute;dias et des journaux, dans les deux langues officielles et repr&eacute;sentant diff&eacute;rentes perspectives politiques et r&eacute;gionales. Nous avons ensuite choisi des sites web ayant un volume &eacute;lev&eacute; de production de contenu, qui ont d&eacute;montr&eacute; une architecture web qui convient&nbsp;&agrave; la r&eacute;colte et &agrave; la pr&eacute;servation num&eacute;rique, et qui ont &eacute;galement la plus grande distribution, et nous avons commenc&eacute; &agrave; cibler les pages de couverture pour la collecte quotidienne :</p> <table border="1" cellpadding="3" cellspacing="3" style="height:250px;width:800px;"> <tbody> <tr> <td>Acadie Nouvelle</td> <td>Global News</td> <td>La Presse</td> <td>Toronto Star</td> </tr> <tr> <td>Bloomberg Canada</td> <td>Globe and Mails</td> <td>Le Devoir</td> <td>Vancouver Sun</td> </tr> <tr> <td>CBC</td> <td>Huffington Post Canada</td> <td>Le Droit</td> <td>Whitehorse Daily Star</td> </tr> <tr> <td>City News Toronto</td> <td>iPolitics</td> <td>National Post</td> <td>Winnipeg Free Press</td> </tr> <tr> <td>CTV News</td> <td>Journal de Montreal</td> <td>Radio-Canada</td> <td>Macleans - COVID-19</td> </tr> <tr> <td>Financial Post</td> <td>Journal de Quebec</td> <td>Rabble.ca</td> <td>&nbsp;</td> </tr> </tbody> </table> <p>&nbsp;</p> <p>Cette m&eacute;thode a &eacute;t&eacute; adopt&eacute;e pour veiller &agrave; ce que la chronologie historique de tout &eacute;v&eacute;nement historique national impr&eacute;vu soit imm&eacute;diatement document&eacute;e &agrave; mesure que les d&eacute;tails apparaissent dans les m&eacute;dias grand public partout au Canada. Cela a lib&eacute;r&eacute; du temps et des efforts au sein du programme, qui peut maintenant &ecirc;tre consacr&eacute; &agrave; la recherche, &agrave; l&rsquo;&eacute;valuation, &agrave; la s&eacute;lection et &agrave; l&rsquo;acquisition de ressources web plus pr&eacute;cieuses au lieu de r&eacute;pondre de fa&ccedil;on ad hoc &agrave; la collection de m&eacute;dias. Au moment de la r&eacute;daction du pr&eacute;sent rapport, nous avons men&eacute; environ 4 535 op&eacute;rations techniques de collecte et d&rsquo;analyse web (web archival crawls), recueillant environ 656 millions d&rsquo;objets repr&eacute;sentant environ 18 t&eacute;raoctets de donn&eacute;es, soit 25 % de nos archives totales &ndash; et en croissance quotidienne.</p> <p>En cons&eacute;quence directe, les collections d&#39;&eacute;v&eacute;nements historiques nationaux depuis 2016 sont beaucoup plus riches et comprennent des ressources plus sp&eacute;cialis&eacute;es qui n&#39;auraient pas &eacute;t&eacute; incluses et pr&eacute;serv&eacute;es auparavant.</p> <p>Le programme a commenc&eacute; &agrave; recueillir passivement des m&eacute;dias aux premiers stades de la pand&eacute;mie de COVID-19 d&egrave;s qu&rsquo;elle a &eacute;t&eacute; signal&eacute;e en d&eacute;cembre 2019. Cela nous a permis de d&eacute;finir de fa&ccedil;on beaucoup plus pr&eacute;cise les objectifs de conservation des archives web sur la COVID-19 et de r&eacute;fl&eacute;chir plus largement aux sujets que nous voulions documenter.</p> <h2 style="text-align: justify;">D&eacute;finir les objectifs et la port&eacute;e d&rsquo;une archive web sur la COVID-19</h2> <p style="text-align: justify;">Comme toute autre collection de biblioth&egrave;ques, il est essentiel d&rsquo;avoir une politique de d&eacute;veloppement de la collection qui d&eacute;finit les objectifs, les sous-th&egrave;mes qu&rsquo;elle contient, l&rsquo;ordre ou la priorit&eacute; du d&eacute;veloppement et le degr&eacute; d&rsquo;exhaustivit&eacute; pr&eacute;vu. Pour l&rsquo;archivage web et selon notre m&eacute;thodologie, nous d&eacute;finissons la port&eacute;e (et par d&eacute;finition ce qui est d&eacute;lib&eacute;r&eacute;ment hors de port&eacute;e) de chaque sous-th&egrave;me, m&eacute;tadonn&eacute;es sp&eacute;cialis&eacute;es ou vocabulaire contr&ocirc;l&eacute; appliqu&eacute;, et un aper&ccedil;u du degr&eacute; de contr&ocirc;le de la qualit&eacute; &agrave; effectuer par sous-th&egrave;me.</p> <p>En d&eacute;finissant, en surveillant et en contr&ocirc;lant l&rsquo;effort maximal &agrave; investir dans chaque sous-th&egrave;me de collecte en mati&egrave;re de nombre total de ressources web &agrave; acqu&eacute;rir, d&rsquo;activit&eacute;s techniques &agrave; r&eacute;aliser et du nombre maximal d&rsquo;&eacute;quivalents temps plein (ETP) &agrave; investir en fonction du niveau de contr&ocirc;le de la qualit&eacute; assign&eacute;e, les progr&egrave;s peuvent &ecirc;tre surveill&eacute;s et ajust&eacute;s au besoin. Ceci est particuli&egrave;rement important pour les op&eacute;rations de contr&ocirc;le de la qualit&eacute; pour les grandes collections puisque, comme d&eacute;crit dans une pr&eacute;sentation pour la conf&eacute;rence annuelle d&rsquo;IIPC, le&nbsp;contr&ocirc;le de la qualit&eacute; est comme un trou noir et peut absorber des ressources infinies (Smyth 2021)&nbsp;! En m&ecirc;me temps, il faut demeurer flexible et &ecirc;tre en mesure de s&rsquo;adapter et d&rsquo;accueillir de nouveaux sous-th&egrave;mes &agrave; mesure que l&rsquo;&eacute;v&eacute;nement national &eacute;volue et que de nouveaux contenus qui justifient la collecte sont g&eacute;n&eacute;r&eacute;s.</p> <p>En termes d&rsquo;acquisition de m&eacute;dias sociaux et de Twitter en particulier, que nous pr&eacute;f&eacute;rons collecter en utilisant l&rsquo;API et le logiciel ouvert &laquo; Twarc &raquo;, nous r&eacute;alisons &eacute;galement des gains d&rsquo;efficacit&eacute; en analysant des &laquo; hashtags &raquo; topiques et canadiens de premier plan, puis en les recueillant par th&egrave;me en fonction du taux le plus &eacute;lev&eacute; de production de contenu, plut&ocirc;t que de cibler les comptes. Cette m&eacute;thode &eacute;tait particuli&egrave;rement importante pour documenter le &laquo;&nbsp;Convoi de la libert&eacute; &raquo; (&laquo; Convoi de camionneurs &raquo;) pendant la pand&eacute;mie, o&ugrave; le dialogue principal sur ces questions a eu lieu sur les m&eacute;dias sociaux (Smyth, 2022b).</p> <p>Donc, les sujets g&eacute;n&eacute;raux suivants ont &eacute;t&eacute; d&eacute;finis et document&eacute;s par l&rsquo;acquisition et la pr&eacute;servation de ressources web pertinentes (tableau 1) :</p> <div style="page-break-after: always"><span style="display: none;">&nbsp;</span></div> <table border="1" cellpadding="3" cellspacing="3" style="height:250px;width:800px;"> <caption>Tableau 1. R&eacute;sum&eacute; des th&egrave;mes document&eacute;s dans la collection d&rsquo;archives web de BAC sur la COVID-19</caption> <thead> <tr> <th scope="col"><strong>Grands sous-th&egrave;mes de la collection de la pand&eacute;mie :</strong></th> <th scope="col"><strong># Ressources </strong>:</th> </tr> </thead> <tbody> <tr> <td>Sciences de la sant&eacute;</td> <td>587</td> </tr> <tr> <td>Arts et culture</td> <td>302</td> </tr> <tr> <td>Gouvernement f&eacute;d&eacute;ral, provincial et territorial</td> <td>257</td> </tr> <tr> <td>Organismes de bienfaisance</td> <td>209</td> </tr> <tr> <td>Affaires et &eacute;conomie</td> <td>195</td> </tr> <tr> <td>Protestations et autres points de vue (p. ex., convois de camionneurs)</td> <td>141</td> </tr> <tr> <td>Sant&eacute; publique r&eacute;gionale</td> <td>119</td> </tr> <tr> <td>Familles et &eacute;ducation</td> <td>115</td> </tr> <tr> <td>Religion</td> <td>88</td> </tr> <tr> <td>Perspectives autochthones</td> <td>35</td> </tr> <tr> <td>Total</td> <td>2048</td> </tr> </tbody> </table> <p>&nbsp;</p> <p>En ce qui concerne les progr&egrave;s et les r&eacute;sultats &agrave; ce jour, et au moment de la r&eacute;daction, notre collection comprend actuellement (tableau 2 et figure 1) :</p> <table border="1" cellpadding="3" cellspacing="3" style="height:250px;width:800px;"> <caption>Tableau 2. Statistiques d&rsquo;acquisition pour la collection d&rsquo;archives web de BAC sur la COVID-19</caption> <thead> <tr> <th scope="col" style="text-align: left;"><strong>Activit&eacute;s d&rsquo;acquisition :</strong></th> <th scope="col" style="text-align: left;"><strong>Total :</strong></th> </tr> </thead> <tbody> <tr> <td>Nombre de sites de m&eacute;dias acquis quotidiennement</td> <td>34</td> </tr> <tr> <td>Total des ressources web s&eacute;lectionn&eacute;es</td> <td>~2,048</td> </tr> <tr> <td>Total des documents num&eacute;riques recueillis</td> <td>~478 millions</td> </tr> <tr> <td>Donn&eacute;es totales recueillies</td> <td>~16 TO</td> </tr> <tr> <td>Tweets saisis pour la collecte li&eacute;e &agrave; la COVID-19</td> <td>~3,83 millions</td> </tr> </tbody> </table> <address>&nbsp;</address> <p style="text-align: center;">Figure 1. Distribution de ressources d&#39;archives web par documents recueillis pour la collection BAC COVID-19</p> <p><img src="https://www.numerev.com/img/ck_234_1_image-20220929051235-1.png" /></p> <address style="text-align: justify;">&nbsp;</address> <h2 style="text-align: justify;">Aider les chercheurs &agrave; utiliser les archives web : vers un instrument de recherche d&rsquo;archives web pour les collections complexes (comme la COVID-19)</h2> <p><q>A surefire way for a historian to recognize the value of the archival or library profession is to suddenly be confronted with the vast data of a web archive. Many of the problems confronting a web archive researcher result from suddenly not having the professional framework and infrastructure from which historians studying earlier time periods benefitted</q>&nbsp;(Milligan, 2019, p. 213).</p> <p>&Eacute;tant donn&eacute; notre r&ocirc;le historique dans l&rsquo;organisation, la compr&eacute;hension et l&rsquo;utilisation des ressources de recherche, comment les biblioth&eacute;caires et archivistes num&eacute;riques travaillant comme sp&eacute;cialistes de la pr&eacute;servation et conservation num&eacute;rique peuvent-ils aider les chercheurs de la prochaine g&eacute;n&eacute;ration &agrave; acc&eacute;der aux donn&eacute;es brutes et aux archives web, c.-&agrave;-d. aux donn&eacute;es qui deviendront in&eacute;vitablement la principale source pour les historiens des XXe et XXIe si&egrave;cles&nbsp;?</p> <p>Comme r&eacute;ponse pr&eacute;liminaire, et comme &eacute;volution de la politique de d&eacute;veloppement de la collection th&eacute;matique web, nous avons voulu transformer ce document interne sur la gestion du projet en un outil de recherche d&rsquo;archives web pour le chercheur, et le publier avec la collection web par l&rsquo;entremise du portail d&rsquo;acc&egrave;s public des Archives web du gouvernement du Canada.</p> <p>Ce court document pourrait alors servir de guide &agrave; la collection d&rsquo;archives web et aux donn&eacute;es th&eacute;matiques pour tout chercheur potentiel. Il fournirait une d&eacute;finition des th&egrave;mes que nous essayons de documenter, toutes les m&eacute;tadonn&eacute;es sp&eacute;cialis&eacute;es qui pourraient &ecirc;tre utilis&eacute;es pour faciliter la recherche en texte int&eacute;gral (p. ex., par Library of Congress Subject Headings (LCSH) et&nbsp;par la terminologie descriptive sensible et faisant partie int&eacute;grante des ressources autochtones dans le cas des archives web de la Commission de v&eacute;rit&eacute; et r&eacute;conciliation), un niveau de contr&ocirc;le de la qualit&eacute; attribu&eacute; par th&egrave;me est &agrave; pr&eacute;voir, la liste compl&egrave;te des &laquo; graines d&rsquo;archivage web &raquo; (web archiving seeds, c.-&agrave;-d. les adresses des sites web &agrave; collecter), ainsi que les tableaux de distribution des ressources par langue.</p> <p>L&rsquo;instrument de recherche des archives web devrait &eacute;clairer le chercheur en sciences humaines num&eacute;riques et en histoire num&eacute;rique d&rsquo;un coup d&rsquo;&oelig;il et r&eacute;pondre &agrave; la question suivante : &laquo; Cet ensemble de donn&eacute;es ou cette collection d&rsquo;archives Web seront-ils utilis&eacute;s comme principale source historique pour ma question de recherche? &raquo; -- sans avoir &agrave; faire de recherche sur la source pour d&eacute;terminer quels types de ressources ont &eacute;t&eacute; saisies, et/ou pour d&eacute;terminer dans quelle mesure l&rsquo;ensemble de donn&eacute;es est complet ou repr&eacute;sentatif. Nous pourrions ensuite faire &eacute;voluer le projet et ce document au fil du temps, en ajuster la port&eacute;e &agrave; mesure que de nouvelles ressources sont g&eacute;n&eacute;r&eacute;es et que de nouvelles questions pertinentes se posent, et documenter la collection et ce qu&rsquo;elle offre aux chercheurs.</p> <p>Il convient &eacute;galement de souligner que cette m&ecirc;me m&eacute;thodologie est actuellement appliqu&eacute;e &agrave; la documentation et aux r&eacute;actions du Canada aux enjeux actuels en Ukraine.</p> <p>&nbsp;</p> <h2>Conclusion</h2> <p>De nombreux efforts sont en cours pour &eacute;liminer les d&eacute;pendances techniques &agrave; l&rsquo;utilisation informatique des archives web comme donn&eacute;es et comme ressources textuelles pour la recherche.</p> <p>Comme premier exemple, l&rsquo;int&eacute;gration des outils logiciels du projet &laquo; Archives Unleashed &raquo; et le partenariat entre ce groupe et Internet Archive, permet d&eacute;sormais d&rsquo;introduire :</p> <p><q>ARCH (Archives Research Compute Hub), the first cloud-based system designed from scratch to meet all of these six key principles [of Archive, Big Data, Concurrent, Distributed, Efficient, Flexible]. ARCH is an interactive interface, closely connected with Archive-It, engineered to provide analytical actions, specifically generating datasets and in-browser visualizations. It efficiently streamlines research workflows while eliminating the burden of computing requirements [for researchers]. Building off past work by both the Internet Archive (Archive-It Research Services) and the Archives Unleashed Project (the Archives Unleashed Cloud), this merged platform achieves a scalable processing pipeline for web archive research&hellip;ARCH&rsquo;s interface consists of four levels. These guide users to interact with their collections by generating datasets for analysis and engaging with in-browser features. The goal of ARCH is to provide an efficient, streamlined workflow without burdening users with computing requirements or actions&hellip;ARCH has been designed as an integrated component of Archive-It</q>&nbsp;(Holzmann et al., 2022, p. 1; 6-9).</p> <p>&nbsp;</p> <p>Ce d&eacute;veloppement passionnant fera &agrave; son tour partie de la prestation de services qui sera d&eacute;sormais disponible pour les institutions qui utilisent la plateforme Archive-IT.</p> <p>Bien que les m&eacute;thodologies de &laquo; r&eacute;ponse rapide &raquo; existaient d&eacute;j&agrave;, pendant la pand&eacute;mie de 2019, l&rsquo;archivage Web est devenu une priorit&eacute; strat&eacute;gique et une m&eacute;thodologie pour la saisie, l&rsquo;organisation et la conservation num&eacute;rique, et la d&eacute;couverte et l&rsquo;acc&egrave;s &agrave; des ressources du web qui constituent la principale source et la preuve de l&rsquo;impact historique national de la COVID-19 sur chaque nation. C&rsquo;est devenu une priorit&eacute; d&rsquo;action en reconnaissance du fait que les documents d&rsquo;archives et les publications pourraient autrement prendre un temps ind&eacute;termin&eacute; &agrave; produire et &agrave; devenir accessibles aux chercheurs.</p> <p>&nbsp;</p> <h2 style="text-align: justify;">Remerciements</h2> <p>L&rsquo;auteur tient &agrave; remercier les membres de l&rsquo;&eacute;quipe du Programme de pr&eacute;servation du web et des m&eacute;dias sociaux et la section d&rsquo;Int&eacute;gration num&eacute;rique pour leur professionnalisme, leur d&eacute;vouement et leur travail acharn&eacute; dans l&rsquo;&eacute;laboration du programme d&rsquo;archivage web &agrave; BAC pendant la pand&eacute;mie et depuis 2009.</p> <p>&nbsp;</p> <h2 style="text-align: justify;">R&eacute;f&eacute;rences bibliographiques</h2> <p>Holzmann, Helge, Nick Ruest, Jefferson Bailey, Alex Dempsey, Samantha Fritz, Peggy Lee et Ian Milligan (2022). <em>ABCDEF - The 6 key features behind scalable, multi-tenant web archive processing with ARCH: Archive, Big Data, Concurrent, Distributed, Efficient, Flexible. JCDL &rsquo;22: Proceedings of the 22nd ACM/IEEE Joint Conference on Digital Libraries, June 20-24 2022, Cologne, Germany, article no 13.</em> DOI: <a href="https://doi.org/10.1145/3529372.3530916">https://doi.org/10.1145/3529372.3530916</a></p> <p>Justice Canada (2022). <em>Loi sur la Biblioth&egrave;que et les Archives du Canada (L.C. 2004, ch. 11).</em></p> <p><a href="https://laws-lois.justice.gc.ca/fra/lois/l-7.7/index.html">https://laws-lois.justice.gc.ca/fra/lois/l-7.7/index.html</a></p> <p>Milligan, Ian (2019). <em>History in the age of abundance? How the Web is transforming historical research.</em> Montr&eacute;al et Kingston, McGill-Queen&rsquo;s University Press.</p> <p>Milligan, Ian et Tom J. Smyth (2019). Studying the web in the shadow of Uncle Sam: The case of the .ca domain. In: Niels Br&uuml;gger et Ditte Laursen (dir.), <em>The historical web and digital humanities: The case of national web domains</em>. London, Routledge, 45-63.</p> <p>Smyth, Tom J. (2022a). <em>Rapid response methodologies and projects: Documenting national historic events at Library and Archives Canada.</em> International Internet Preservation Consortium Annual Web Archiving Conference 2022.</p> <p>Smyth, Tom J. (2022b). <em>Program policy and methodology for the acquisition of social media at Library and Archives Canada</em>. International Internet Preservation Consortium Workshop: Archiving Social Media 2022.</p> <p>Smyth, Tom J. (2021). <em>The black hole of quality control: Toward a framework for managing QC effort to ensure value.</em> International Internet Preservation Consortium Annual Web Archiving Conference 2021.</p> <p>Webster, Peter (2019). Understanding the limitations of the ccTLD as a proxy for the national web: Lessons from cross-border religion in the northern Irish web sphere. In: Niels Br&uuml;gger et Ditte Laursen (dir.), <em>The historical web and digital humanities: The case of national web domains</em>. London, Routledge, 110-123.</p>