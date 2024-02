La Bibliothèque nationale de France est chargée de collecter les collections du dépôt légal du web. Son travail consiste à tracer les URL (liens) et à les engranger dans un énorme silo numérique.

En 2023, cette collecte franchit le seuil des 2 pétaoctets (soit 2 000 téraoctets) de données.

Un patrimoine numérique phénoménal

La collecte large annuelle et les collectes ciblées réalisées par la BnF ont permis de sauvegarder 4,4 milliards d’URL. S’y ajoutent deux collectes « d’urgence » de plateformes ayant fermé à l’été 2023 : les skyblogs et les pages personnelles Orange, pour un volume de 1,9 milliard d’URL.

Le moissonnage 2023 s’est déroulé du 18 octobre au 5 décembre, sur 5 731 808 domaines de départ à raison de 2 200 URL collectées par domaine.

3 173 362 231 URL sont sauvegardées. La BnF a par ailleurs poursuivi l’intégration de nouveaux contenus tels que les réseaux sociaux. Parmi lesquels, YouTube, Instagram, TikTok, ou les podcasts. Elle précise que le passage de Twitter à X ne rendent plus possible sa collecte par les robots de la BnF depuis le mois de juin 2023.



Créé en 2002, le dépôt légal du web archive des sites mis en ligne à partir de 1996. Il s’applique à toutes les publications du web français.

Ce moissonnage s’opère dans le respect du droit d’auteur. L’intégralité des contenus archivés grâce à ces collectes est désormais accessible aux chercheurs, à la BnF et dans ses réseaux.

