GTC 2024 : Dell branche les données à l’IA via un Ethernet peu cher
Les nouveaux nœuds de stockage PowerScale F710 connectent l’ensemble des données stockées sur des clusters OneFS à des serveurs de calcul Nvidia DGX, de la manière la plus économique possible.
En marge des annonces de Nvidia lui-même, le salon GTC 2024 qui se tient cette semaine à San José, dans la Silicon Valley, fait la part belle aux fournisseurs de baies de stockage. Occupant les plus grands stands de l’exposition, tous sont venus présenter une version nouvelle ou spécialement améliorée de leurs solutions pour répondre aux besoins spécifiques des différents calculateurs de Nvidia.
Parmi eux, Dell dévoilait sur son stand sa nouvelle baie PowerScale F710. Il s’agit en l’occurrence d’un serveur Dell PowerEdge 660 – format 1U, deux processeurs Xeon 24 cœurs à 2,6 GHz, RAM de 512 Go, dix SSDs NVMe de 30 To chacun et deux ports Ethernet 100 Gbit/s – fonctionnant sous le système OneFS 9.7.
Utiliser Ethernet plutôt qu’Infiniband
« Cette baie de stockage est la première à être validée par Nvidia pour être utilisée en Ethernet sur ses baies de calcul SuperPOD. Toutes les autres ne le sont que sur une connexion Infiniband. Le réseau Ethernet est présent dans toutes les entreprises, alors qu’Infiniband est réservé aux centres de calcul. Or, aujourd’hui, c’est bien le commun des entreprises qui a vocation à faire analyser ses données par l’IA. Donc nous proposons qui leur permet de le faire sans devoir investir dans une autre infrastructure réseau », argumente Tom Wilson, Directeur Produits chez Dell (en photo).
En l’occurrence, une baie PowerScale F710 s’interface avec un serveur DGX de Nvidia – ou HGX, quand il s’agit d’un serveur à la configuration similaire, à base de cartes GPU H100, H200 et, bientôt, B100/B200, mais assemblé sous une autre marque. Dell dispose lui-même d’une telle configuration serveur à son catalogue, le PowerEdge XE9680. Pour servir de stockage à tout un SuperPOD pouvant contenir 32 serveurs DGX/HGX, Dell propose d’assembler plusieurs nœuds de stockage PowerScale F710 derrière une batterie de switches Ethernet 100 Gbit/s.
Dans cette configuration, les nœuds de calcul DGX sont capables d’ingérer les données issues de la baie de stockage directement dans la mémoire des GPUs H100, via le dispositif GPU Direct. Celui-ci évite l’étape intermédiaire d’un chargement des données dans la RAM du processeur x86 présent sur les serveurs DGX pour un déchargement ensuite dans la RAM des GPUs.
Parmi les autres constructeurs ayant évoqué une approche similaire, Cisco a annoncé lors de son dernier évènement Cisco Live d’Amsterdam une configuration également basée sur un réseau Ethernet. Pour autant, celle-ci n’est pas encore disponible.
L’enjeu de présenter tous les types de données aux serveurs DGX
L’autre avantage de la configuration de Dell est que les machines PowerScale sous OneFS sont en fait la version moderne des baies super élastiques Isilon que Nvidia vend le plus souvent aux entreprises des médias. Celles-ci sont ici la cible privilégiée d’une telle offre, dans le but d’entraîner l’IA sur la reconnaissance d’images et, dans un second, lui faire générer de nouvelles vidéos.
« OneFS est un système qui vous permet d’étendre la capacité jusqu’à 252 nœuds de stockage, en présentant un seul volume logique accessible aux serveurs DGX. La particularité de OneFS est que vous pouvez déployer dans votre cluster différentes catégories de stockage : les baies F710 ont des SSD NVMe extrêmement rapides, mais vous pouvez joindre des nœuds à base de disques durs, sur lesquels vous stockez vos archives. Dès lors, ces archives deviennent également disponibles pour l’IA, via les nœuds F710 qui les montrent aux serveurs DGX », assure Tom Wilson.
« C’est une énorme différence avec nos concurrents qui, eux, proposent un seul type de stockage par volume. Si tout est stocké sur des SSD, cela coûte plus cher. S’il faut une baie logique par type de stockage, cela coûte aussi plus cher. »
« Le scénario d’usage est donc le suivant : nous avons des clients qui ont une très grande quantité de données sur des clusters PowerScale qui n’ont pas forcément les performances attendues par des serveurs DGX. Il leur suffit d’ajouter à leur cluster des nœuds F710 pour résoudre le problème et ainsi pouvoir exécuter l’IA sur leurs données, sans même avoir à gérer manuellement une migration entre différentes baies de stockage », précise Tom Wilson.
Dans le détail, OneFS a surtout la capacité d’étiqueter les fichiers, selon leurs catégories d’usage. Cet étiquetage pourrait être pris en compte dans les applications d’IA pour échelonner les données à fournir, là à un moteur d’entraînement, là à un processus de fine-tuning et là à une IA générative, que ce soit pour exécuter un modèle préentraîné comme pour l’alimenter avec du RAG.
Mais dans tous les cas, un serveur DGX n’ira jamais lire directement des données dans un nœud peu performant. C’est l’étiquetage qui permet de dire au cluster quelles données doivent être déplacées sur les SSD des nœuds F710 pour être accessibles aux serveurs DGX.