Hammerspace ajoute une protection accélérée à son stockage
L’éditeur n’utilisait ni RAID, ni Erasure coding pour protéger les données de ses NAS distribués, faute de trouver une solution assez rapide. C’est désormais le cas, grâce à un algorithme développé par des mathématiciens français.
Hammerspace, l’éditeur d’un système de stockage qui permet de partager des fichiers entre plusieurs sites comme s’ils se trouvaient à chaque fois sur un NAS local, enrichit sa solution avec un système d’Erasure coding de pointe, développé par des mathématiciens français de l’université de Nantes.
L’intérêt de l’Erasure Coding est le même que celui du RAID, à savoir fragmenter les fichiers en blocs redondants et répartis sur les différents disques d’un NAS, pour avoir des copies de secours des données dans le cas où un disque tomberait en panne. Le problème est qu’Hammerspace ne peut pas utiliser de RAID sur son système de fichiers distribué, puisque ce dispositif est limité au contrôleur matériel de chaque nœud. Une contrainte que n’a pas l’Erasure Coding.
« À la base, nous utilisons dans notre solution du mirroring (réplication) qui permet d’avoir l’accès aux fichiers le plus rapide, mais qui contraint à faire des copies, ce qui consomme beaucoup d’espace de stockage. L’alternative pour économiser de l’espace est l’Erasure Coding. Mais l’Erasure coding ralentit généralement significativement les accès, car il faut à chaque fois recomposer les blocs épars des fichiers. »
« L’algorithme Mojette que nous mettons ici en œuvre fournit de l’Erasure Coding sans pratiquement aucun ralentissement », explique Molly Presley, la directrice marketing d’Hammerspace (en photo), dans le cadre d’un événement IT Press Tour consacré aux acteurs qui innovent dans le stockage.
Le retour de RozoFS
L’algorithme Mojette implémente en l’occurrence la transformée Mojette, une formule géométrique qui génère des données de secours par combinaison des données sources. La transformée Mojette est un projet de recherche mené dès les années 90 à l’Institut de Recherche en Communications et Cybernétique de Nantes, entretemps renommé Laboratoire des Sciences du Numérique de Nantes (LS2N).
Durant les années 2010, le chercheur Pierre Evenou de cet institut écrit un système de fichiers distribué qui se base sur la transformée Mojette : RozoFS. Il apparaît que son code d’Erasure Coding est beaucoup plus rapide que ceux existants, car la génération des données de secours ne repose que sur des additions. Les méthodes habituelles, par exemple l’algorithme Reed-Solomon, génèrent plutôt des codes de contrôle à partir de formules polynomiales plus difficiles à calculer.
Quel que soit l’algorithme employé, l’Erasure Coding, comme le RAID, est conçu pour limiter l’espace occupé par les données de secours. Ainsi, les combinaisons ou les codes de contrôle n’augmentent la consommation de l’espace de stockage que d’environ 30 %.
La startup créée par Pierre Evenou et son équipe pour commercialiser RozoFS a ensuite été (très) discrètement rachetée par Hammerspace en 2022. Devenu directeur des technologies avancées chez Hammerspace, Pierre Evenou travaille depuis lors à intégrer RozoFS au système de stockage de l’éditeur, GDE (Global Data Environment).
Mais aussi à Hyperscale NAS, une déclinaison de GDE qui est conçue pour, cette fois-ci, agglomérer les contenus de plusieurs NAS locaux (et même des bibliothèques de bandes) sur un même volume réseau. Hyperscale NAS présente toutes les données ensemble à des serveurs de calcul ; il constitue de fait une solution de stockage économique pour les entreprises qui se lancent dans les projets d’IA.
Quatre nœuds pour l’Erasure Coding
« RozoFS est inclus gratuitement dans nos deux solutions. Nous souhaitons véritablement le présenter à nos clients comme une option d’Erasure Coding qu’ils peuvent activer ou non. Notre propos est de dire que nous avons à présent une solution de NAS distribuée qui est autant protégée que des baies Isilon ou Qumulo, mais qui fonctionne beaucoup plus vite qu’elles. Accessoirement, l’algorithme Mojette supporte des milliards de fichiers dans le NAS, ce qui n’est pas le cas de la concurrence », argumente Molly Presley.
Qui dit Erasure Coding dit un minimum de nœuds de stockage en cluster pour répartir les fragments de données de secours. Le système Hyperscale NAS, qui est installable sur n’importe quel serveur x86 doté de disques, doit être déployé sur des multiples de quatre nœuds pour que son Erasure Coding fonctionne.
« C’est une caractéristique que nous sommes susceptibles de changer au fil du temps, au fur et à mesure que nous faisons des tests. Mais, pour l’heure, le fait de compter par groupe de quatre nœuds est le moyen le plus simple que nous avons trouvé pour pouvoir étendre ou réduire la quantité des nœuds de stockage sans jamais perturber le fonctionnement de l’Erasure Coding. C’est un avantage supplémentaire de notre solution, car il n’est pas simple de retirer des nœuds dans les clusters de stockage de nos concurrents », dit Molly Presley.