GTC 2024 : Weka présente le stockage le plus rapide pour l’IA
L’éditeur du système de fichiers hautement parallèle WekaFS a fait la démonstration d’une baie de stockage matérielle qui bat tous les records de vitesse pour alimenter les serveurs DGX de Nvidia en données.
Outre les nouveaux GPUs Blackwell de Nvidia, les vedettes du salon GTC 2024 organisé cette semaine dans la Silicon Valley auront été les fabricants de baies de stockage. Tous ont répondu présents sur les plus grands stands de la conférence, afin de présenter de nouvelles solutions toujours plus rapides ou toujours moins chères pour ingérer des données dans les moteurs d’IA exécutés sur les serveurs de calcul DGX de Nvidia.
Après Dell et sa baie F710, après HPE et les dernières versions de sa baie Alletra MP, voici Weka et sa nouvelle baie WEKApod qui, elle, vise les performances maximales.
La baie WEKApod est constituée de nœuds 1U individuellement capables d’ingérer 90 Go de données par seconde dans un serveur DGX et d’enregistrer ses résultats à la vitesse de 23 Go/s. Weka a fait la démonstration d’une baie constituée de huit nœuds qui multiplient d’autant les bandes passantes : 720 Go/s en lecture, 186 Go/s en écriture et globalement 18,3 millions d’IOPS sont mesurés avec un SuperPOD, soit, ici, un cluster de 32 serveurs DGX de Nvidia.
Selon Weka, aucun de ses concurrents ne parviendrait à atteindre de telles performances sur 8U. Pour afficher des débits similaires, les autres fournisseurs de stockage proposeraient des solutions qui occupent plutôt une à deux étagères rack, soit jusqu’à dix fois plus de consommation électrique.
Chaque serveur DGX est une machine 8U qui contient 8 cartes GPU H100. Il est possible de constituer un cluster SuperPOD avec un maximum de 256 serveurs DGX. Concernant le WEKApod, il est constitué d’au minimum huit nœuds et peut-être étendu par lots de quatre nœuds chacun. Weka ne précise pas quel est le nombre de nœuds maximal dans un WEKApod – il parle de « centaines » – mais promet que les performances ne chutent pas quand on les augmente.
Records de vitesse
Joel KaufmanDirecteur technique, Weka
« Nous obtenons de telles performances parce que notre système de fichiers WekaFS est extrêmement parallélisé. Et pas uniquement au niveau de l’accès aux fichiers, mais directement dans l’OS de notre solution, au niveau de la gestion des processus dans le noyau de notre OS », argumentait Joel Kaufman, directeur technique de Weka (deuxième à gauche, sur la photo en haut de cette page), lors d’une session de préannonce qui avait eu lieu quelques jours avant la GTC, à l’occasion d’un évènement IT Press Tour.
« Comparativement à d’autres solutions de stockage qui utilisent un noyau standard [Linux ou BSD, N.D.R.], nous exécutons ainsi 2,5 fois plus de tâches par seconde sur l’accès aux fichiers, notamment parce que nous parallélisons aussi mieux les flux au niveau de la connexion réseau de chacun de nos nœuds », précisait-il.
À ce propos, Weka se félicite d’avoir obtenu les meilleurs scores sur les tests de performance SPECstorage_2020 qui permettent de comparer la vitesse des systèmes de fichiers au prorata des caractéristiques matérielles sur lesquelles ils s’exécutent. Ces tests, réalisés sur un cluster de 40 machines virtuelles 24 cœurs d’AWS, démontrent des débits 1,75 fois supérieurs au système de Qumulo dans les mêmes conditions et même légèrement supérieurs à une véritable baie NetApp AFF A900 composée de huit nœuds contrôleur (à raison de 128 cœurs par contrôleur).
À titre anecdotique, lors de la GTC 2024, Weka a loué des voitures de sport repeintes à ses couleurs pour les faire tourner autour du centre de conférences. Les conducteurs n’ont pas lésiné sur les rugissements assourdissants du moteur à chaque arrêt au feu rouge situé devant l’entrée principale du bâtiment. A priori, les 11 000 participants ont tous bien compris que Weka en avait sous le pied pour transporter les données.
Un design de référence éventuellement vendu par d’autres
Concernant la baie WEKApod, chaque nœud comprend un processeur AMD Epyc 48 cœurs à 2,75 GHz, 384 Go de RAM DDR5, 14 SSD NVMe de 15 To et deux cartes contrôleur Infiniband ConnectX-7 de Nvidia offrant chacune un port 400 Gbit/s. Contrairement à la baie F710 de Dell, également présentée lors de ce salon, et qui repose sur une connectique Ethernet 100 Gbit/s, la solution de Weka privilégie en effet la connectique Infiniband que Nvidia recommande pour communiquer à pleine vitesse avec les GPU H100 et leur protocole de stockage GPU Direct.
« Soyons clairs : nous ne fabriquons pas de matériel. Les nœuds de la baie WEKApod sont des serveurs Dell que nous avons spécialement configurés selon les caractéristiques demandées par Nvidia et sur lesquels nous avons installé notre système WekaFS. Dans le cadre d’un déploiement de clusters pour l’IA, les entreprises ont besoin de produits clés en main et personne n’aurait retenu notre solution si elle n’était pas présentée sur un équipement de pointe », dit Colin Gallagher, le directeur Produits de Weka (tout à gauche sur la photo).
« Nous n’avons nullement l’intention de concurrencer les fabricants qui installent eux-mêmes notre système sur leurs infrastructures, comme Lenovo. En mettant au point la baie WEKApod, nous avons surtout mis au point un design de référence, qui a été validé par Nvidia et qui peut dès lors être assemblé et proposé par les partenaires de Nvidia aux entreprises », précise-t-il.
Parmi ces partenaires, se trouve notamment Dell. Celui-ci propose d’ailleurs un clone du serveur DGX de Nvidia, le PowerEdge XE9680. Et il se trouve que la baie WEKApod est parfaitement compatible avec lui.