L’Institut du Cerveau adopte en avant-première un stockage NVMe/RoCE
Le centre de recherche devait trouver comment supporter les vitesses d’écriture des nouveaux microscopes sans pouvoir installer des SAN dans chaque laboratoire.
L’ICM, l’Institut du Cerveau, a choisi d’adopter en avant-première un stockage OpenFlex E3000 de Western Digital, l’un des premiers modèles de baies 100 % Flash reliées aux serveurs en NVMe/RoCE. Cette solution présente le double avantage d’être aussi rapide, si ce n’est plus, qu’un SAN ordinaire, tout en s’accommodant d’un réseau de communication qui parcourt plusieurs étages.
« L’ICM est un centre de recherche qui a été créé en 2010 pour mutualiser les travaux de 700 chercheurs. Ceux-ci prélèvent des informations en faisant des IRM, en photographiant au microscope, puis ils les traitent sur leurs stations de travail. Entre la capture et l’analyse, les données sont centralisées dans notre datacenter, au sous-sol du bâtiment », explique Caroline Vidal, la responsable technique de l’ICM.
« Le problème de cette installation est que pour parcourir les étages qui séparent les laboratoires du datacenter, nous devons passer par un réseau de câbles et de switches Ethernet, qui mènent donc à un serveur de partage de documents. Or, classiquement, une telle installation consiste à utiliser des NAS, dont la rapidité n’est pas adaptée à la vitesse de lecture ou d’écriture des instruments. Au fil de l’évolution des microscopes, les données ont pris de plus en plus de temps à s’enregistrer, puis à remonter vers les stations de travail des chercheurs, les obligeant parfois à attendre pendant des heures devant leur écran. »
« Nous avions au départ choisi un NAS Active Circle qui présentait de nombreux atouts pour ce que nous pensions être l’enjeu essentiel : la sécurité des données. Sauf que nous nous sommes rendu compte que nos chercheurs n’avaient pas de problème de pertes de données. Ce qui les pénalisait véritablement était l’attente qui n’en finissait plus avant de pouvoir récupérer leurs informations », raconte la responsable technique.
« En 2016, nous nous sommes résolus à abandonner le NAS et à partager tous les relevés depuis le stockage Lustre de notre supercalculateur, car, lui, est par nature dimensionné pour les accès critiques », lance Caroline Vidal. À l’instar des autres instituts de recherche, le datacenter de l’ICM est en effet conçu comme un centre de supercalcul : les données en cours de traitement par les serveurs de simulation sont stockées sur un cluster Lustre, puis archivées sur un entrepôt de données au format objet, tandis que les celles prélevées par les scientifiques sont mises à disposition sur un NAS.
Mais au bout de trois ans, la sanction tombe : les 3 Po de stockage Lustre sont saturés de données d’observation ; il n’y a plus de place pour celles qui doivent être traitées par les serveurs.
Le NVMe/RoCE pour la rapidité d’un NAS avec la facilité d’installation d’un NAS
« En 2019, nous avons commencé par envisager de décentraliser le stockage des stations d’acquisition, c’est-à-dire en répartissant des baies SAN 100 % Flash dans les étages. Sauf que nos locaux ne sont pas du tout adaptés pour recevoir ces équipements. Nous aurions dû aménager des mini-datacenters dans nos couloirs… Cela aurait nécessité trop de travaux », se souvient la responsable technique.
L’architecte qui travaille dans l’équipe de Caroline Vidal se rapproche alors de Western Digital, qui lui propose de tester en avant-première une solution encore inédite : un SAN avec connectique NVMe-over-Fabrics. « L’intérêt de cette solution, l’OpenFlex de Western Digital, ici en NVMe/RoCE, est qu’il est possible de l’installer dans notre datacenter et de la relier aux machines dans les étages, en passant par notre infrastructure réseau existante. Physiquement, la solution est aussi simple à installer qu’un NAS. Mais, techniquement, elle est aussi rapide que des baies Flash que nous aurions installées juste à côté des laboratoires. »
Le NVMe-over-Fabrics est un protocole de stockage qui considère les SSD NVMe comme des extensions de mémoire non volatile branchées sur les bus PCIe des serveurs. Il se débarrasse ainsi du protocole intermédiaire SCSI, véritable goulet d’étranglement, ce qui lui permet d’atteindre des débits quatre fois plus importants par rapport à une baie de disques ordinaire disposant de la même connectique. Le NVMe/RoCE est une implémentation du NVMe-over-Fabrics qui repose sur des câbles et des commutateurs Ethernet plus ou moins classiques. L’intérêt de l’Ethernet est que ses équipements et ses câbles sont les infrastructures installées par défaut pour couvrir les longues distances dans les bâtiments de bureau.
Le NVMe/RoCE n’utilise pas les couches TCP/IP – au contraire du NVMe/TCP, une autre déclinaison, mais moins rapide. Il ne permet donc pas de faire passer sur les mêmes liens à la fois les paquets du réseau local et ceux du stockage. En revanche, l’ICM dispose déjà de tous les switches, de tous les câbles et de toutes les gaines pour assurer la connexion.
Caroline VidalICM
« Dans un premier temps, nous pouvons connecter l’OpenFlex aux équipements réseau que nous avons en stock, en l’occurrence des switches et des câbles en 10 Gbit/s. Cependant, notre infrastructure réseau étant vieillissante, nous passerons à court terme sur des équipements en 100 Gbit/s, lesquels permettront à l’OpenFlex de donner toute la mesure de sa puissance », précise Caroline Vidal.
Pour vérifier la faisabilité d’un déploiement OpenFlex, l’ICM fait appel à son partenaire intégrateur, 2CRSi. C’est lui qui implémente l’utilisation de la solution comme un SAN dont la capacité de stockage s’apparentera depuis les postes de travail des chercheurs à autant de disques locaux.
« Le système interne de l’OpenFlex permet de le connecter à un millier de machines clientes. Il suffit de partitionner l’ensemble de son stockage en volumes indépendants, jusqu’à 256 sont possibles, chacun devenant le disque attitré d’un à quatre postes de travail. Côté machines clientes, il faut bien évidemment les équiper de cartes Ethernet compatibles, par exemple celles de marque Mellanox qui communiquent en 10 Gbit/s et supportent le protocole RDMA-over-Converged-Ethernet (soit RoCE) », détaille Frédéric Mossmann, directeur technique de 2CRSi.
« Nous avons effectué des tests. Le résultat le plus parlant est celui de la latence, qui est inférieure à 40 microsecondes. En pratique, cela permet à un équipement d’acquisition d’enregistrer image par image de manière fluide, et à une station de travail de visionner des séquences sans aucune saccade », ajoute Carole Vidal.
2 millions d’IOPS et 11,5 Go/s par disque SSD
La machine, un châssis E3000 au format rack 3U, est déployée au début de l’année 2020. Cinq de ses dix emplacements verticaux sont pourvus de modules SSD NVMe 1EX2516 de 15 To chacun, totalisant 75 To. Selon Western Digital, chacun de ces modules offre un débit de 11,5 Go/s en lecture comme en écriture, avec environ 2 millions d’IOPS dans chacun des cas. L’ensemble des éléments est contrôlé depuis un Linux intégré au châssis, qui peut se piloter soit en ligne de commande, soit depuis une console Puppet pour partitionner les disques et allouer dynamiquement de la capacité à chaque utilisateur.
Caroline VidalICM
« L’un des éléments, qui nous a séduits, est l’ouverture du système. Nous sommes férus de technologies libres dans le monde scientifique ! Le fait de savoir qu’il y aura une communauté apte à développer rapidement des extensions pour divers cas d’usage qui pourraient nous concerner, mais aussi que n’importe quel constructeur peut fabriquer des modules SSD compatibles nous rassure quant au choix de solutions innovantes, qui n’ont pas été encore beaucoup testées », dit la responsable, en expliquant que l’ICM a volontiers joué ici le rôle d’utilisateur pilote pour l’OpenFlex.
D’ores et déjà, l’OpenFlex supporte des modules SSD pouvant grimper à 61,4 To chacun de capacité brute. En façade arrière, chaque module SSD offre deux ports Ethernet 50 Gbit/s, sous la forme de connecteurs optiques QSFP28. Ils sont reliés aux commutateurs Ethernet de l’ICM, lesquels distribuent des câbles 10 Gbit/s dans les étages, jusqu’aux laboratoires des chercheurs. L’ICM a aussi fait le choix de relier aussi l’OpenFlex à son supercalculateur.
« La machine offre une multitude d’usages. En attendant de moderniser notre infrastructure Ethernet, nous n’avons connecté l’OpenFlex qu’à quelques machines clientes. À terme, nous pensons que nous le connecterons à des serveurs NAS d’appoint et sans disque dans les laboratoires, lesquels seront reliés aux stations de travail et d’acquisition via un réseau plus classique, afin de limiter les dépenses en cartes Mellanox RoCE dans les machines. Parallèlement, nous avons connecté l’OpenFlex au reste de notre datacenter, juste pour valider que nous pourrions nous en servir ponctuellement pour stocker les métadonnées de Lustre lors de gros calculs », décrit Carole Vidal.
Elle concède que la crise pandémique a retardé la mise en place. Mais elle observe déjà des bénéfices : « les scientifiques ne sont plus limités par la lenteur de circulation des données dans leur pipeline d’analyse clinique ; au point qu’ils peuvent désormais travailler sur des images avec une résolution quatre fois supérieure à avant. Nous ne doutons pas qu’ils pourront ainsi approfondir leur compréhension des processus des maladies neurologiques et mettre au point de nouvelles thérapies plus rapidement », conclut-elle.