Archivage : l’Europe travaille à un format de données universel, éternel
L’initiative eArchiving de la Commission européenne présente la version 2.0 de son infrastructure de référence, laquelle décrit un format ouvert capable de tout stocker, de manière descriptive et réglementaire.
Il est urgent de faire durer les données. Tel est, en substance, le message de l’initiative européenne eArchiving, laquelle vient tout juste d’annoncer une version 2.0 de son architecture de référence et se félicite que son financement ait été reconduit, en ce début octobre pour encore deux ans.
Sous la tutelle de la Commission européenne qui l’a officialisée en octobre 2022, l’initiative eArchiving est une instance technophile qui a vocation à définir des processus (formats ouverts, métadonnées…) pour que les administrations, le secteur de la santé ou encore les industriels de l’UE cessent, d’ici à 5 ans, de devoir systématiquement déterrer des ordinateurs obsolètes quand ils veulent consulter – et comprendre – des documents vieux d’au moins une décennie.
« Il y a plusieurs problèmes lorsque vous souhaitez récupérer des anciennes données. Bien sûr, il faut parvenir à relire le support de stockage sur lequel elles se trouvent et savoir relire le format de fichier », lance Gregor Završnik, chercheur à l’université de Ljubljana (Slovénie) en génie civil et géodésique, consultant en archivage de données géospatiales et membre de l’initiative eArchiving (en photo).
« Mais il y a pire : lorsque vous êtes enfin parvenu à extraire des données sous la forme d’un tableau Excel, il vous manque encore le contexte. À quoi correspondent tous ces chiffres et tous ces textes que vous avez restaurés ? Comment ont-ils été collectés ? Avec quelle précision ? Avec quelle validité temporelle ? Sont-ils authentiques ? », questionne-t-il.
LeMagIt a pu le rencontrer à l’occasion d’un événement IT Press Tour consacré aux acteurs européens qui innovent dans le domaine du stockage de données.
Pour résoudre toutes ces questions, l’initiative eArchiving s’appuie sur le projet E-Ark, une communauté de développeurs européens qui s’attache depuis 2014 à créer des outils universels et pérennes de validation, de reformatage et d’archivage des données. L’enjeu de ces outils est de rendre les archives interopérables (grâce à un encodage commun), mais aussi réglementaires.
Passer d’un projet de chercheurs à une initiative européenne
« Au début du projet E-Ark, nous imaginions créer un format universel pour les archives nationales. Mais plus nous avancions, plus nous nous rendions compte que les archives sont majoritairement conservées par ceux qui ont produit les données à l’origine, car tout le monde imagine que ces données auront une valeur commerciale grandissante au fil du temps. Il était donc pertinent de créer un standard qui permette à une entreprise de restaurer ses propres archives après plusieurs années », raconte Gregor Završnik.
Problème, le projet E-Ark, seul, peine depuis le départ à fédérer les grands fournisseurs de solutions de stockage et de sauvegarde. Composé d’une dizaine d’équipes, parmi lesquelles on trouve aussi bien l’éditeur français Ever Team Software que l’Association des archivistes francophones de Belgique, et d’une quinzaine d’observateurs, dont le cabinet de conseil Serda en France, le consortium, chapeauté par l’Institut de Technologie d’Autriche, il est profondément ancré dans le monde de la recherche.
L’enjeu à l’échelle de la Commission européenne, c’est qu’en transformant E-ARK en Initiative eArchiving, le contenu technique du projet puisse devenir un standard sur le marché. Une première étape est que le format d’archive universel imaginé par E-ARK est à présent normalisé ; il va correspondre sous peu à la nouvelle révision de l’ISO 14721. Pour autant, comme dit plus haut, les membres de l’initiative eArchiving doivent batailler tous les deux ans pour faire renouveler leur financement.
« Si la Commission européenne peut demander aux administrations de l’UE d’adopter notre format d’archive, elle ne peut cependant obliger les entreprises à faire de même. Toutefois, son argument consiste à dire aux entreprises que si elles utilisent un format ouvert, elles ne seront plus verrouillées ad vitam æternam sur une technologie qui nécessite des outils commerciaux pour être exploitée. De plus, elles pourront librement échanger des données entre elles », argumente Gregor Završnik.
Un format d’archive CSIP qui décline plusieurs jeux de métadonnées
Gregor ZavršnikChercheur et membre de l’initiative eArchiving
Le format de fichier du projet est le CSIP (Common Specification for Information Packages) ; il dispose à présent de son portail dédié, censé servir de point de départ pour toute entité souhaitant convertir ses données en archives pérennes ou tout éditeur souhaitant l’implémenter.
« Ce format est libre de toute licence commerciale, il est structuré d’une manière documentée pour pouvoir être relu, il est librement utilisable dans n’importe quel logiciel, il supporte d’accoler un numéro de série unique à chaque archive et il supporte de définir des dépendances à d’autres données », indique Gregor Završnik.
Selon la compréhension du MagIT, ce dernier point concernant la dépendance des données semble similaire au système de packages Linux, où l’installation d’un logiciel peut automatiquement déclencher l’installation de bibliothèques tierces nécessaires à son fonctionnement. Ici, des informations de cadastre, par exemple, peuvent nécessiter la présence d’une carte géographique récupérée depuis une autre archive.
Gregor ZavršnikChercheur et membre de l’initiative eArchiving
Le format CSIP est implémenté par une plateforme de gestion de packages, baptisée OAIS (Open Archival Information Package) qui se compose d’outils pour soumettre des données sources au sous-format SIP (Submission Information Package), pour les conserver après reformatage au sous-format AIP (Archival Information package) et pour les redistribuer, avec uniquement les informations nécessaires à un métier ou une application, au sous-format DIP (Dissemination Information Package).
Chaque sous-format est une déclinaison du format CSIP avec des métadonnées particulières. Par exemple, le format DIP contiendra des métadonnées pour que le contenu de l’archive soit exploitable dans des applications médicales (fichiers), commerciales (bases SQL), architecturales (modèles 3D) ou encore de cartographie (images vectorisées).
La nouvelle version 2.0 de l’architecture de référence correspond à une amélioration des détails du format. Notamment le fait de découper les métadonnées en six groupes – « Strategy », « Business », « Application », « Technology », « Physical » et « implementation & Migration » – pour chacun desquels il existe des paramètres « Passive Structure », « Behavior », « Active Structure », et « Motivation »..