Recherche : l’IRSN ciblera mieux ses données dans les sauvegardes
L’expert public du risque nucléaire réinvente sa manière de stocker les sauvegardes. Face à l’enjeu de conserver certains fichiers pour toujours, il s’équipe pour trier les données chaudes, froides et obsolètes.
Dans le but d’améliorer l’efficacité de ses métiers, l’Institut français de radioprotection et de sûreté nucléaire (IRSN) va équiper ses chercheurs d’outils d’inventaire et d’étiquetage des fichiers qui leur permettront d’optimiser leurs travaux et aideront la DSI à fiabiliser leurs données, tout en libérant plus rapidement de l’espace pour leurs nouveaux projets. La solution repose sur l’enrichissement de la plateforme de sauvegarde NetBackup avec Enterprise Vault et Insights, d’autres produits du même éditeur Veritas.
« Nous avons vocation à nous transformer, mais sans tomber dans le piège du chantier technico-technologique ! L’intérêt de la solution que nous mettons en place est qu’elle va tout d’abord servir à connecter métiers et DSI », lance Simon Tourard qui, à la Direction de la transformation de l’IRSN, occupe le poste de Directeur délégué au développement numérique et aux systèmes d’information.
L’IRSN est l’expert public du risque nucléaire. Sous la tutelle conjointe des ministres chargés de la Défense, de l'Environnement, de l'Industrie, de la Recherche et de la Santé, ses 1700 collaborateurs surveillent et documentent l’impact de la radioactivité sur les cellules, aussi bien pour le domaine civil que militaire. Dans ce cadre, ils manipulent au quotidien des données nouvelles – qui augmentent de 20% tous les ans – mais aussi des relevés d’un autre âge. Par exemple, l’IRSN fait encore de nos jours des découvertes sur la catastrophe nucléaire de Tchernobyl, qui a eu lieu en 1986.
« À date, la somme de ces données représente 1 Po. Ce sont des données aussi bien chaudes que froides, qui étaient initialement conservées sans distinction sur des bandes. Avec parfois la contrainte d’envoyer un sous-traitant manipuler des bibliothèques de cassettes dans l’un de nos centres pour récupérer des données ou simplement faire de la maintenance », raconte Simon Tourard, en mentionnant une certaine inertie dans le système.
L’enjeu d’avoir la notion du cycle de vie des données
Une inertie qui devenait pesante au fur et à mesure que l’IRSN a modernisé ses pratiques. Parmi elles, l’institut s’est lancé dans le mouvement de l’Open science. Cette pratique consiste, pour les chercheurs, à partager et documenter les données qu’ils évoquent dans les publications qu’ils font tout au long de l’année. Problème, cela nécessite d’avoir un plan de gestion des données : identifier lesquelles sont pertinentes pour quelles recherches et lesquelles sont obsolètes passé quel délai.
Accessoirement, avoir une démarche d’Open Science est désormais un passage obligé pour tout institut de recherche qui souhaite pouvoir répondre aux appels à projets financés par l’État ou par l’Europe,
« Fin 2020, à l’occasion de la mise à jour des nos équipements de sauvegarde, nous avons donc décidé de déployer une véritable stratégie data, c’est-à-dire remettre la notion de cycle de vie des données dans notre infrastructure », résume Simon Tourard.
À ce moment, l’IRSN stocke ses données sous forme de fichiers sur des NAS NetApp, sur site, et les sauvegarde au moyen du logiciel NetBackup, d’abord sur des appliances dédiées, lesquelles sont répliquées sur des bandes. « NetBackup est une solution que nous maîtrisons suffisamment pour n’avoir pas souhaité en changer. Nous avons donc demandé à son éditeur Veritas de nous proposer une solution qui corresponde à nos objectifs », précise notre interlocuteur.
Enterprise Vault pour mettre de côté les données froides
Veritas propose d’abord de remplacer les bandes par la solution d’archivage Enterprise Vault – l’IRSN préfère parler de « conservation longue durée ». Le premier intérêt d’Enterprise Vault est qu’il apporte un outil pour différencier les données froides des données chaudes. Il devient ainsi possible d’archiver une bonne fois pour toutes les données froides sur une appliance Vault dédiée, pour ne plus laisser en production que les fichiers fréquemment accédés.
L’appliance qui va de pair avec Enterprise Vault fonctionne avec des disques durs. Elle permet donc de récupérer très rapidement les données archivées. Cela n’était pas possible avec des bandes, raison pour laquelle l’IRSN devait laisser en production toutes les données, quel que soit leur âge. Surtout, cette technique est transparente pour les utilisateurs, car Enterprise Vault remplace, sur les NAS, les données froides par des liens symboliques vers les fichiers archivés. Ainsi, lorsqu’ils naviguent dans les répertoires des NAS, les utilisateurs voient toujours tous les fichiers, comme si aucun n’avait été déplacé ailleurs.
À l’usage, la DSI de l’IRSN se rendra compte qu’Enterprise Vault lui permet d’économiser énormément d’espace sur les NAS de production : 75% des fichiers qui s’y trouvaient jusque-là étaient des données froides. Mieux, sortir ces données des NAS signifie aussi qu’il n’est plus nécessaire de les sauvegarder régulièrement, ce qui permet d’économiser aussi de l’espace sur l’appliance dédiée aux sauvegardes.
« Cette solution est vertueuse, car elle nous permet finalement de libérer de l’espace. Avant, pour servir un nouveau projet, nous devions investir dans de nouveaux disques, dans l’énergie consommée par ces nouveaux disques. Et les équipes devaient attendre un certain temps que l’espace demandé soit mis en production. À présent, nous pouvons répondre aux nouvelles demandes de capacité dans les plus brefs délais », insiste le DSI de l’IRSN.
Enfin, contrairement à NetBackup, Enterprise Vault n’est pas facturé à la volumétrie, mais au nombre d’utilisateurs qui le manipulent. Dans le cas de l’IRSN, ce calcul est plus avantageux.
Gérer l’obsolescence des fichiers avec Data Insights
L’équipe de Simon Tourard a programmé Enterprise Vault pour qu’il retire des NAS tout fichier âgé de plus de deux ans. Mais ce n’est qu’un début :
« Enterprise Vault apporte une première rationalisation dans le classement des données. Mais pour que notre système soit pleinement efficace, encore faudrait-il que nous sachions éliminer nos fichiers obsolètes. À date nous stockons aussi bien des relevés qui ont vocation à ne jamais être effacés que des comptes-rendus de réunion qui, passé un certain délai, n’ont plus aucune importance. »
Il faut donc identifier la nature de chaque fichier. Pour ce faire, Veritas propose son logiciel Data Insights, que l’IRSN a déployé au début de l’année 2022. « Data Insights présente des rapports très poussés des types de données que nous stockons. Mais la DSI n’a pas autorité pour considérer quel tel ou tel fichier est obsolète. Le projet consiste donc à mettre les tableaux de bord de Data Insights entre les mains des métiers, pour qu’ils décident ce qui doit être effacé. Et, mieux, qu’ils puissent à l’avenir étiqueter leurs fichiers avec une date de péremption », dit Simon Tourard.
Selon lui, les outils de Data Insights ont pour l’heure une valeur de sensibilisation des équipes à l’obsolescence des données. Cependant, la fonction d’étiquetage devra attendre encore quelques mois avant d’être disponible.
« Nous parlons ici d’une transformation des usages. Et, comme toute transformation, elle demandera du temps. Nous devons décider avec les métiers quel étiquetage sera le plus pertinent pour eux. En attendant, un dialogue se crée entre métiers et DSI sur des fondations communes. Data Insights permet à la DSI et aux métiers de prendre conscience ensemble de la question de soutenabilité des données », conclut-il.