Stockage : l’ESA face au défi de sans cesse rafraîchir ses archives
L’Agence Spatiale Européenne collecte en flux continu les données de ses sondes et satellites sur des baies qui servent aussi à stocker les archives. Et pour cause : les nouvelles mesures enrichissent les anciennes.
Des images qui arrivent en flux continu depuis des satellites et qu’il ne faut surtout pas perdre, tant elles sont uniques. Puis qu’il faut traiter, transformer en archives documentaires, mettre rapidement à la disposition des chercheurs du monde entier, si possible dans des containers étanches pour qu’ils les raffinent avec leurs propres applications. Et chaque année, reprendre toutes les données existantes pour les traiter à nouveau, parce que de meilleurs modèles mathématiques sont parus, ou parce que des instruments de mesure plus performants complètent les informations.
Telle est la mission de l’European Space Astronomy Center (ESAC), le seul centre de l’Agence Spatiale Européenne où le mot « espace » évoque d’abord l’espace de stockage.
« Chez nous, les caractéristiques de l’infrastructure de stockage ne ressemblent en rien à celles que vous rencontrez ailleurs. Quand nous parlons de besoin de performances, par exemple, cela ne veut pas dire que nous avons besoin de vitesse, cela signifie que nous avons besoin de baies de stockage qui fonctionnent exactement avec le bon timing. Celui de quantités d’opérations en parallèle », explique Rubén Alvarez, le DSI « Science & Opérations » de l’ESA (en photo).
Et d’insister : si le centre de l’ESA à Madrid gère bien un datacenter entier, avec quantité de serveurs virtualisés ou containerisés pour exposer les données, avec des réseaux complexes pour interconnecter, là, les centres de contrôle qui récupèrent les flux des satellites, là, les centres de recherche qui les exploitent, la pièce maîtresse de l’édifice est le stockage.
Mettre en production des archives
À l’heure actuelle, il s’agit d’une capacité de 8 Po qui mobilise l’essentiel des équipes informatiques. Une capacité qui doit augmenter sans cesse du fait de la précision exponentielle des outils de mesure. Le projet Gaia, qui consiste depuis 2013 à dresser une carte 3D de la Voie lactée sur la base de 50 à 100 Go de prises de vue par jour, doit à lui seul représenter 2 à 3 Po de données d’ici à 2025. Ensuite, Euclid, la mission qui doit débuter en 2024 pour analyser la matière noire, produira quant à elle 10 à 20 Po de données d’ici à 2030.
Comparativement, la sonde Rosetta, qui s’est posée sur une comète en 2014 pour y faire des relevés pendant deux ans, n’a produit que 218 Go de données. Mais elle posait un autre défi : émettant ses données à 400 millions de kilomètres de la Terre, il était particulièrement impossible de lui redemander une prise de vue si celle-ci n’avait pas été correctement stockée.
Parmi les particularités qui font de la « bibliothèque de l’univers » de l’ESA un stockage pas comme les autres, il y a la caractéristique de mettre en production, non pas des données chaudes, mais des archives. Techniquement parlant, il s’agit de marier une forte capacité sur des disques durs, plus fragiles et plus lents que des SSD hors de prix, avec une activité intensive – 18 000 utilisateurs accèdent à la bibliothèque tous les mois – et une fiabilité exceptionnelle.
En l’occurrence, les nouvelles observations qui arrivent chaque jour côtoient absolument toutes les données des missions scientifiques que l’ESA a pu produire depuis 1999 et que le monde de la recherche spatiale continue d’utiliser au quotidien. Que ce soit pour l’étude de l’univers, comme dans le cadre des articles scientifiques qui, bonne pratique européenne oblige, doivent désormais partager un lien vers leurs données sources.
La variété des accès est d’autant plus complexe que les données de l’ESA sont constituées d’un très grand nombre de fichiers. Pour autant, Rubén Alvarez réfute l’idée de confier la gestion du stockage à un tiers :
« Nous n’utilisons pas de cloud public, sauf pour des besoins ponctuels, car la souveraineté d’un datacenter en propre à Madrid correspond plus aux valeurs d’une agence publique européenne. Cela dit, l’ESA n’est pas une entreprise informatique, sa vocation est d’investir d’énormes moyens dans la recherche spatiale. Nos moyens à la DSI sont donc limités. C’est pourquoi nous avons besoin d’un équipement de stockage qui nous simplifie drastiquement les tâches d’administration. »
NetApp pour simplifier la tache
En l’occurrence, l’ESAC utilise depuis 2005 des baies NetApp, aujourd’hui des modèles FAS à base de disques durs pour sa bibliothèque de données et des modèles AFF contenant des SSD. Ceux-là ne servent qu’à stocker les applications.
« Nous n’avons pas une baie par mission, mais un cluster de baies qui regroupe les données de toutes les missions. C’est le modèle le plus efficace pour que le système gère la complexité et simplifie le travail des équipes IT », explique Rubén Alvarez.
« Au départ, nous n’avions pas d’idée arrêtée sur une marque ou une autre. Nous voulions juste acheter les systèmes de stockage les plus fiables et les plus simples à gérer. Nous avons demandé conseil à nos collègues de la NASA. Ils nous ont dit qu’ils utilisaient des baies NetApp. Nous avons fait comme eux », résume-t-il.
Un choix qu’il n’a jamais regretté. « D’une part, le support de NetApp est sans faille. L’accompagnement d’un constructeur est à ce point important pour que, je pense, nous ayons été parmi les premières entreprises à souscrire à un paiement à l’usage. C’est-à-dire que nous payons pour que NetApp nous fournisse un service de stockage qui fonctionne tout le temps et qui a tout le temps la capacité dont nous avons besoin. »
D’autre part, Rubén Alvarez se félicite que la maintenance de la solution se fasse de manière transparente, sans aucun impact sur la production. « La maintenance ne concerne pas seulement l’intervention physique pour remplacer ou ajouter des disques, ou des tiroirs de disques. Pour garantir la fiabilité de nos données, il faut aussi régulièrement lancer des trains de mises à jour, tantôt pour les firmwares des contrôleurs, tantôt pour les systèmes d’exploitation des baies. Et il n’est pas question à ce moment-là de demander aux satellites de cesser d’envoyer des données ou aux chercheurs d’attendre pour accéder aux informations. »
Des fonctions qui évoluent peu
Outre la capacité qui ne cesse d’augmenter, les caractéristiques techniques évoluent peu. Ou, du moins, lentement. « Par exemple, l’essentiel de nos données reste des fichiers, car c’est le format qu’utilisent la plupart des scientifiques. Nous commençons à avoir des demandes pour du protocole objet et avons amorcé une transition lente en ce sens. Mais cela reste du domaine purement logiciel : les baies NetApp apportent cette fonction. »
Concernant la sécurité des données, quatre solutions tierces s’occupent de faire des sauvegardes ailleurs – le DSI ne veut pas donner plus de détails – en bonne intelligence, là encore, avec les fonctions de snapshots de NetApp. Le système du constructeur apporte manifestement un soin particulier aux droits d’écriture des fichiers, réglés pour déclencher une restauration à la moindre corruption.
Quant aux droits d’accès, Rubén Alvarez s’en amuse : « Nos données ont vocation à être partagées par le plus grand nombre, donc tant mieux si n’importe qui y accède en lecture ! Je vous le dis : nous n’avons définitivement pas les mêmes préoccupations de stockage qu’une entreprise classique. Et cela reste vrai concernant la recrudescence des problèmes de cybersécurité, qui nous inquiètent moins ici qu’ailleurs », conclut-il.