Stockage : IBM met toutes les données de l’entreprise dans l’IA
En démonstration lors de la conférence GTC 2024 de Nvidia, les nouvelles baies Storage Scale System 6000 mettent du très haut débit entre les données qu’une entreprise stocke ailleurs et les serveurs de calculs DGX.
Tous les fabricants de baies de stockage s’étaient donné rendez-vous à l’événement GTC 2024, organisé par Nvidia la semaine dernière dans la Silicon Valley, pour promouvoir leurs modèles les plus puissants. Parmi eux, IBM montrait enfin au public son NAS Storage Scale System 6000 (alias SSS6000) annoncé en fin d’année dernière.
Son premier avantage ? Alimenter les serveurs d’IA avec un débit de données de 310 Go/s qui, selon le constructeur, serait celui attendu par les GPUs Nvidia H100 embarqués dans des serveurs DGX ou HGX. D’ici à la fin de cette année, ce débit sera doublé pour les nouveaux GPUs B200. Et il y a un second avantage, qui tient à la densité de la machine : elle parvient à stocker 5,4 Po de données dans un format de seulement 4U.
Minimiser les goulets d’étranglement
Le débit est assuré par huit cartes Infiniband de 400 Gbit/s chacune. Il s’agit en l’occurrence de cartes CX7 de Nvidia qui utilisent chacune 16 canaux sur des bus PCIe 5.0. L’Infiniband est un réseau où les contrôleurs fonctionnent en RDMA, c’est-à-dire qu’ils peuvent écrire directement en RAM – sans passer par le processeur – les données qu’ils font transiter entre le stockage et le serveur de calcul.
Il s’agit du fonctionnement préconisé par le système GPU Direct qui équipe les GPUs de Nvidia : dans un serveur DGX, les données lues depuis le stockage sont directement chargées dans la mémoire HBM intégrée au GPU qui a demandé l’accès aux données.
Jan Jitze KrolArchitecte stockage, IBM
Côté SSS6000, les huit cartes CX7 transfèrent les données dans la RAM de 1,5 To présente dans la machine, puis ses deux processeurs AMD Epyc 7642 (48 cœurs chacun) les transfèrent de la RAM aux SSD NVMe, à la vitesse de 256 Go/s. Une future version, qui utilisera le protocole CXL, pourrait directement décharger le contenu de la RAM dans les SSD NVMe, sans passer par les processeurs. En l’état, les 310 Go/s de bande passante sur l’Infiniband sont atteints, car les GPUs réutilisent des données qui sont restées en RAM.
« Ce système permet d’assurer un débit de 310 Go/s par nœud de stockage. C’est-à-dire que si vous souhaitez alimenter un cluster de serveurs DGX avec 3 To/s, il vous suffit de déployer dix nœuds SSS6000. Il n’y a aucun ralentissement dû à l’ajout de nœuds. Chaque GPU va communiquer sur un ou plusieurs ports Infiniband et toutes les communications se feront en parallèle, de manière indépendante les unes des autres », précise Jan Jitze Krol, architecte stockage chez IBM (à droite sur la photo).
Un cache pour accéder rapidement à toutes les données de l’entreprise
Dans les faits, toutes les solutions de stockage Storage Scale System d’IBM sont conçues pour fonctionner de concert, c’est-à-dire que tous les nœuds de stockage configurés en NAS présentent tous les mêmes données aux serveurs de calcul, y compris des données qui se trouvent physiquement sur un autre nœud. Mais dans cette famille de baies, les modèles SSS6000 sont plus particulièrement conçus pour servir de cache, en maximisant le rapatriement sur leurs propres SSD des fichiers les plus utilisés.
« Nous avons dans notre gamme de solutions de stockage tous types de baies avec tous les types de médias, y compris des bibliothèques de bandes pour stocker des archives. Cela signifie qu’une entreprise peut avoir des applications traditionnelles qui stockent leurs différentes données sur une variété de baies de stockage. Et le jour où cette entreprise souhaite entraîner des modèles d’IA sur l’intégralité de ses données, il lui suffit de déployer des SSS6000 entre les serveurs de calcul et ses baies de stockage existantes », explique Jan Jitze Krol.
Le système d’IBM, qu’il appelle Global Data Platform, repose sur l’utilisation du système de stockage Ceph sur tous les nœuds, les SSS comme les ESS de génération précédente. Ceph est en l’occurrence mis en œuvre par un Linux RHEL de RedHat qui est installé sur chaque nœud.
Ce système Linux dispose par ailleurs de connecteurs pour intégrer au cluster de stockage IBM des NAS d’autres marques, notamment ceux de NetApp, de Pure Storage et de Dell (sous OneFS). Il est même possible de rapatrier des données depuis les services de stockage en ligne d’AWS, d’Azure, de GCP et, bien entendu, d’IBM Cloud.
Une capacité extensible à plusieurs milliers de Po
Concernant la capacité record, elle relève de la présence de 48 SSDs NVMe qui sont soit conventionnels, soit d’un type particulier : le FCM (FlashCore Modular). En FCM, les SSD présentent chacun 19 ou 38 To de capacité brute et embarquent un circuit de compression en temps réel qui triple leur capacité utile, soit 57 et 114 To respectivement. Pour autant, ces SSD sont plus chers.
Une entreprise pourrait trouver plus avantageux économiquement d’utiliser des SSD conventionnels en 7,68 To, 15,36 To ou 30 To qui offrent respectivement une capacité cumulée de 368 To, 737 To ou 1,44 Po, sans compression.
« Au-delà de la capacité même des SSD, Ceph permet de constituer un cluster avec des milliers de nœuds, ce qui signifie que vous pouvez grimper jusqu’à des dizaines de milliers de pétaoctets selon différentes stratégies budgétaires », argumente Jan Jitze Krol.
« Cela signifie d’abord que vous pouvez avoir toutes les capacités avec tous les débits que vous voulez. Ce qui n’est pas possible chez nos concurrents où vous êtes toujours contraints soit par un goulet d’étranglement au niveau de la connectique, soit par un plafond au niveau de la capacité. »
« Et cela veut aussi dire que, chez nous, la seule limite, c’est votre budget : nous pouvons vous offrir autant de performances et de capacité que vous avez de budget à investir. Dit autrement, nous pouvons vous offrir la meilleure solution possible pour le budget que vous avez à investir », conclut-il.