Stockage : HPE apporte le mode objet à ses baies Alletra, pour l’IA
Le fabricant équipe sa plus rapide des baies de disques d’un système de stockage objet de sa conception, censé faciliter le travail de tri des données sensibles que les entreprises font en amont d’un projet d’IA.
HPE lance son propre système de stockage objet pour ses baies de disques Alletra MP. Ce logiciel n’a pas véritablement de nom, mais les Alletra MP vendues avec lui seront appelées des X10000. Et celles qui étaient jusque-là vendues avec le système de stockage d’origine, en mode bloc, seront désormais référencées comme des B10000.
Selon Jim O’Dorisio, le patron des offres stockage chez HPE, l’objectif des baies X10000 est de proposer une solution de stockage objet plus rapide que les autres.
« Nous allons d’abord adresser des besoins de datalakes actifs, c’est-à-dire qui se remplissent régulièrement de nouvelles données tout en supportant des accès en lecture pour l’analyse, ce que vous ne trouvez jamais en cloud par exemple. Nous allons aussi proposer de la sauvegarde et de la restauration super rapides. Notre solution va permettre de restaurer une base de 100 To en quatre heures, contre 16 heures habituellement », se félicite-t-il lors d’une rencontre avec LeMagIT, à l’occasion du salon HPE Discover qui vient de se tenir à Barcelone.
La prouesse technique ne saute pas spontanément aux yeux. Les solutions de stockage objet sont généralement positionnées pour offrir de la capacité au meilleur prix. Ce sont des produits vendus avec des disques durs rotatifs, à la vitesse anémique, peu chers. Dire qu’un stockage objet fonctionnera plus rapidement sur une Alletra MP fait figure de lapalissade. Une Alletra MP est une baie de stockage conçue à l’origine pour les applications de type SAP ou Oracle gourmandes en accès intensifs. Elle ne fonctionne qu’avec des SSD NVMe TLC, les médias plus rapides, et qu’avec un réseau très haut débit entre ses contrôleurs et ses tiroirs de disques.
Plus intriguant, HPE revendait déjà sur ses Alletra MP le système de stockage objet Ring de Scality. Différencier les deux offres n’a rien d’évident de prime abord.
« Scality se positionne sur l’élasticité, sur la capacité maximale de stockage, alors que nous positionnons notre système objet sur les performances », rétorque Jim O’Dorisio, en faisant mine d’ignorer que Scality a justement lancé récemment une version Ring XP orientée sur la vitesse.
Mais à en croire Jim O’Dorisio, il faudra attendre le printemps prochain pour véritablement saisir l’intérêt des Alletra X10000.
Une baie pour l’IA et pour toutes les données « non structurées »
« Notre idée est d’adresser rapidement les applications d’IA sur site. D’abord parce que le mode objet est pourvu de métadonnées, qui peuvent servir à décrire le sens et la réglementarité des données », dit Jim O’Dorisio, en suggérant que le mode objet faciliterait le travail de nettoyage des informations que les entreprises doivent faire en amont d’un projet d’IA.
Généralement, ce travail est fastidieux, car les entreprises utilisent des systèmes de stockage en mode fichier, plus rapides que le mode objet, mais dépourvus d’un dispositif d’étiquetage aussi évolué. Cela dit, les données nettoyées doivent encore être vectorisées pour être ingérées par une IA. Or, on ne voit pas bien en quoi le stockage de vecteurs – juste des nombres avec plusieurs virgules – gagnerait à se faire en mode objet plutôt qu’en mode fichiers.
« En vérité, c’est bien plus qu’un système de stockage objet que nous avons développé pour l’Alletra MP X10000. C’est un système d’exploitation entier pour les données non structurées », argumente encore Jim O’Dorisio.
En stockage, l’appellation « données non structurées » correspond à toutes les variétés de données, sauf celles enregistrées par une base SQL de type Oracle ou SAP. LeMagIT croit comprendre que l’Alletra MP X10000 supportera donc aussi des accès en mode fichier.
« Des évolutions vont arriver au printemps. Mais sachez que nous pouvons stocker les vecteurs dans une base clé-valeur, ce qui permet de retrouver immédiatement sur quels blocs de quels SSD ils sont stockés », précise enfin Jim O’Dorisio.
Une base clé-valeur revient en l’occurrence au fonctionnement de l’index utilisé dans les systèmes de fichiers. Pour accéder à des données en mode objet, les applications doivent envoyer des requêtes à un moteur de recherche, ce qui est beaucoup plus lent.
« À l’extrême, nous allons développer dans notre OS X10000 un accès au protocole GPU-Direct de Nvidia, c’est-à-dire la possibilité pour les GPU d’un serveur de venir lire directement les fichiers sur une baie de stockage sans même devoir passer par leur processeur », ajoute l’expert de HPE.
Le scénario d’usage serait donc le suivant. Des applications – de sauvegarde et, pourquoi pas, de bases de données intensives en mode web – enregistreraient des données sur l’Alletra MP X10000 en les étiquetant au quotidien de métadonnées. Lorsqu’une entreprise déciderait de nourrir une IA générative avec toutes ces informations, elle n’aurait qu’à cocher certaines métadonnées pour automatiquement retirer du lot les informations trop sensibles.
Puis, la vectorisation des données se ferait directement sur l’Alletra MP. Et les serveurs applicatifs, ceux qui exécutent l’IA générative, y accéderaient directement en mode fichier. Ou du moins en faisant une requête « clé-valeur » simple, qui revient à du mode fichier.
64 cœurs par contrôleur
Les Alletra MP sont des machines conçues pour fonctionner dans un cluster de 8 nœuds maximum. La brique de base est un boîtier 2U qui comporte 24 SSD NVMe en façade et intègre une carte mère dotée d’un processeur AMD Epyc de dernière génération, avec une quantité de cœurs et de RAM qui varie selon l’usage.
À l’heure où nous écrivons ces lignes, HPE n’a pas encore adopté les derniers SSD de 61 To de capacité. Avec des SSD de 30 To, chaque boîtier 2U offre 737 To de capacité brute, et un cluster entier atteint 5,9 Po bruts. Par le jeu des redondances, qui réduisent la capacité au bénéfice de la sécurité, conjuguées aux dispositifs de compression/déduplication, qui réaugmentent virtuellement la capacité, l’espace de stockage utile d’un cluster atteindrait 8,78 Po.
La grande idée des Alletra MP est que les nœuds peuvent être utilisés comme des contrôleurs ou comme des tiroirs de disques, selon le scénario d’usage. Si les 8 nœuds sont des contrôleurs, alors les serveurs du réseau bénéficient d’un maximum d’accès parallèles. Mais plus il y a de nœuds « tiroirs de disques », moins la solution coûte cher.
Un tiroir de disque n’a qu’un fonctionnement basique en mode bloc. Son processeur Epyc n’a que 8 cœurs et sa RAM n’est que de 64 Go. Un contrôleur qui partage le stockage en mode bloc pour des serveurs SAP, Oracle, ou de virtualisation aura plutôt 16 cœurs et 256 Go de RAM. Un contrôleur qui partage le stockage en mode fichiers – ce que HPE propose via le système de Vast Data – aura plutôt 32 cœurs et 512 Go de RAM.
Les contrôleurs Alletra MP X10000 sont les premiers à intégrer un AMD Epyc de 64 cœurs avec 512 Go de RAM. Le décodage des requêtes d’accès en mode objet, essentiellement des appels à un moteur de recherche via une API S3, nécessite en effet bien plus de puissance de calcul que l’accès à un fichier qui revient à une simple adresse URL.
Par ailleurs, la redondance d’un cluster en mode objet, qui se fait via un algorithme d’Erasure coding, nécessite qu’au moins trois nœuds du cluster soient ici des contrôleurs.