Ralph Petty - stock.adobe.com
Stockage : l’IBMP relève le défi de trouver 850 To pour 150 000 €
L’institut de Biologie Moléculaire des Plantes s’est retrouvé coincé entre des coupes budgétaires et la nécessité de stocker les données plus lourdes de ses nouveaux instruments de mesure.
L’institut de Biologie Moléculaire des Plantes à Strasbourg (IBMP), rattaché au CNRS, a dû relever le défi de trouver 850 To de stockage avec un investissement de 150 000 euros. Et pas un euro de plus.
« Avant, l’institut avait un budget annuel de 4,4 millions d’euros annuels pour soutenir les recherches de 180 personnes. Cela signifiait que nous pouvions investir au premier janvier de chaque année 600 000 euros soit dans un équipement de recherche inédit, soit dans de l’informatique pour soutenir les recherches. Aujourd’hui, ce budget est tombé à 2,2, voire 2,4 millions d’euros. Il n’y a donc plus rien de disponible pour investir dans le SI », explique Jean-Luc Evrard, le responsable du système d’information rattaché au laboratoire de l’institut.
« Il nous restait un recours : nous pouvions demander une aide ponctuelle à l’État de 150 000 €. C’est peu au regard de ce que nous avions. Mais j’insiste sur le fait que c’est ponctuel : une fois que la solution est achetée, il ne vous reste plus rien pour parer à toute contrainte d’évolutivité », ajoute-t-il, en précisant qu’il n’est pas non plus question dans ces conditions d’opter pour des solutions en leasing, que l’on paie par petits bouts tout au long du contrat de support.
L’enjeu de tenir plusieurs années avec un seul petit investissement
Depuis 2015, l’IBMP utilise le système de stockage bloc SANsymphony de DataCore sur deux baies de disques redondantes Compellent de Dell, toutes deux offrant une capacité de 210 To. Ces baies servent à enregistrer quotidiennement 2 To d’images produites par les instruments de mesure. Jean-Luc Evrard en est pleinement satisfait.
Il apprécie chez DataCore que les solutions de stockage soient uniquement logicielles. Cette approche s’articule mieux avec la contrainte d’acheter la marque de matériels arbitrairement choisie par l’administration. Il loue aussi la proximité du support chez DataCore ; au moindre problème, ses techniciens basés à Londres rappellent dans l’heure et, généralement, en français.
Le problème est que d’autres contraintes de stockage sont arrivées avec de nouveaux instruments de mesure qui produisent des données beaucoup plus lourdes. Il faut à présent pouvoir stocker 80 To de nouvelles données tous les ans et conserver ces données au moins quinze ans, car elles sont susceptibles d’être reprises dans les publications scientifiques que les chercheurs rédigent régulièrement.
Or, SANsymphony, un SDS qui brille plutôt par la rapidité de ses accès, ne répond pas à cet objectif. Les 2 To de résultats quotidiens produits par les analyses des chercheurs n’ont pas vocation à y demeurer plus de quelques semaines.
Même en stockage objet, les options sont souvent hors budget
Jean-Luc Evrard se lance donc dès 2018 en quête d’une nouvelle solution de stockage avec l’objectif qu’elle ne lui coûte pas plus cher que 150 000 €.
Jean-Luc EvrardResponsable du système d’information rattaché au laboratoire de l’institut IBMP
« Nous avons rapidement acquis la certitude que le stockage dont nous avions besoin pour archiver nos données devait être en mode objet. D’une part parce que c’est moins cher et, d’autre part, parce qu’il permet d’étiqueter chaque information avec une certaine quantité de métadonnées. Ces métadonnées permettraient aux chercheurs de citer avec plus de preuves les données qu’ils présentent dans leurs publications ». Jean-Luc Evrard comprend, aux questions que lui pose LeMagIT, qu’il doit entrer dans les détails.
« De nos jours, les chercheurs ne sont plus nécessairement des fonctionnaires. Ce sont souvent des CCD de six mois à trois ans. Dans ces conditions, il leur est très difficile de retrouver une information antérieure à leur arrivée pour appuyer leurs études : on se souvient qu’il y avait eu telle observation, mais en quelle année, par qui, enregistrée sous quel nom, personne ne sait plus le dire. »
Jean-Luc Evrard se rapproche d’abord des clouds privés. « Les gens d’OVHcloud nous ont répondu qu’ils ne savaient pas faire ce que nous voulions. Nous sommes allés voir l’université de Strasbourg, qui a son propre datacenter. Mais quand je leur ai dit que nous avions un budget de 150 000 euros, ils nous ont rétorqué que pour ce prix-là ils pouvaient héberger nos données trois ans. Après, notre stockage n’était plus garanti. »
Il se rabat sur les solutions à demeure. « Ceph est la solution que l’on recommande généralement dans le milieu de la recherche. Nous l’avons évalué et pour nous il est trop complexe, il faut y aller à l’huile de coude ! De plus, Ceph est beaucoup moins un stockage objet qu’un stockage distribué, c’est-à-dire qu’il ne répond pas exactement à notre besoin. »
« Un produit qui correspondait exactement à nos attentes était en revanche les baies ActiveScale, que Quantum a rachetées à Western Digital. Hélas, le temps que nous nous décidions, Quantum a changé son business modèle : désormais, il n’est plus possible d’acheter la solution, il faut la louer. Or, comme je vous le disais tout à l’heure, j’ignore quelles seront nos futures possibilités d’investissement et il était exclu de courir le risque de se retrouver à devoir rendre les baies à un moment donné ».
Swarm, pour stocker les métadonnées à côté des fichiers
Et puis, DataCore rachète Swarm. Le fournisseur vient présenter la nouvelle solution à son client. C’est un coup de cœur.
« Le premier bon point du produit est qu’il venait avec un moteur de recherche intégré. Le second est que nous pouvions acheter des licences perpétuelles, avec une garantie de sept ans. Enfin l’argument qui a achevé de nous séduire est que les métadonnées ne se trouvent pas dans une base de données à part, mais à côté de leurs fichiers, sur le même disque. »
Jean-Luc Evrard précise une nouvelle fois sa pensée : « quand vous regardez la plupart des solutions de stockage objet, vous êtes plus ou moins dépendants d’une base de données qui fédère toutes les métadonnées sur un stockage à part. Si cette base de données est corrompue, vous êtes très ennuyé. »
« Avec Swarm, on peut se retrouver dans la situation peu enviable d’avoir un nœud qui tombe en panne, avec impossibilité de le remplacer pour cause de pénurie de pièces : ce n’est plus un problème, car il suffit de déplacer ses disques vers des nœuds où il reste assez de slots libres pour retrouver toutes ses données, avec leurs métadonnées. »
Le plus gros travail : choisir des types de métadonnées
L’institut de Biologie Moléculaire des Plantes vient donc d’investir ses 150 000 € dans un cluster de dix nœuds de stockage sous Swarm qui offre 850 To de capacité utile (soit 1,4 Po de capacité brute). Ces nœuds sont des serveurs Dell. Trois servent de contrôleur pour dispatcher les accès et sept contiennent la capacité de stockage en elle-même.
Pour autant, il faudra attendre le premier trimestre de l’année 2022 pour que la solution soit opérationnelle. « Ce délai est dû à plusieurs facteurs. Tout d’abord, l’équipe IT doit se former dessus, puis définir la politique de stockage. »
« Notre plus gros travail est de lister quelles métadonnées devront renseigner les chercheurs pour que leurs documents soient facilement retrouvés à l’avenir. Il s’agit notamment de trouver des métadonnées qui puissent servir de preuves de date et de lieu. Nous pensons aussi développer une interface web à façon, qui simplifierait la saisie de ces métadonnées pour les chercheurs. »
Le gage de confiance de DataCore
Jean-Luc Evrard n’a pas le recul nécessaire pour évaluer la qualité de Swarm, mais il veut croire que la fiabilité des produits DataCore sera ici de mise. « Vous savez, SANsymphony nous a permis de sortir de situations compliquées », lance-t-il.
« Par exemple, cette solution fonctionne sur deux baies de disques Compellent de Dell et il se trouve que le constructeur s’était trompé de numéro de série en installant chez nous l’équipement. Il s’agissait d’une erreur bloquante pour mettre à jour la baie et nous ne nous en sommes rendu compte qu’au bout d’un an, lorsque la baie hébergeait 100 To de données essentielles. Pour réparer cette erreur, il fallait effacer tout le contenu, remettre l’appareil en mode-usine, puis réinstaller dessus les données. »
« Grâce à SANsymphony, l’opération a été extrêmement simple : le système a momentanément basculé toute la production sur la baie de secours, le temps de réinitialiser la baie. Puis il s’est occupé de réhydrater son contenu depuis la baie de secours, automatiquement. Aucun utilisateur ne s’est rendu compte de ce qu’il se passait », se félicite-t-il.
Demain, des baies redondées pour réduire la facture des datacenters
Le responsable du système d’information n’a peut-être pas de visibilité sur les investissements qu’on lui accordera à l’avenir, mais il a une idée précise de la direction dans laquelle il veut aller.
« Aujourd’hui, le coût de notre informatique est majoré par l’équipement de sécurité du datacenter, notamment ses groupes électrogènes. Si j’ai les moyens d’investir encore dans du stockage, je répartirai les baies Swarm dans les datacenters de Strasbourg, Nancy et Reims qui sont reliés entre eux par des fibres noires. De telle sorte que, grâce au protocole de Swarm, les datacenters se répliqueront l’un l’autre et qu’il y en aura toujours un pour prendre la relève en cas de panne. »
« En faisant ainsi, je n’aurais plus besoin de mettre autant de sécurité physique sur les baies qu’aujourd’hui. Et avec l’argent économisé sur les groupes électrogènes, ce ne sont plus des To que j’achèterai, mais des Po », conclut-il.