Getty Images/iStockphoto
Nvidia lance un pilote qui transfère les données du GPU au stockage
Plutôt dédié aux applications gourmandes en calculs intensifs, le pilote Magnum IO GPUDirect Storage double les débits sur une baie IBM ESS 3200 et alimente une base d’IA 80 fois plus vite.
Le logiciel Magnum IO GPUDirect Storage que Nvidia a présenté fin 2019 pour accélérer les algorithmes d’intelligence artificielle, d’analytique et de supercalcul a finalement atteint le statut 1.0 après plus d’un an et demi de tests. Magnum IO GPUDirect Storage est un pilote système qui permet de transférer les données directement entre la mémoire d’une carte GPU et le stockage utilisé par le serveur, sans passer par une étape de décodage au niveau du processeur. Il sert à réduire la latence des entrées/sorties et à augmenter les débits dans les applications les plus exigeantes.
Dion Harris, en charge des produits d’accélération des calculs chez Nvidia, indique que GPUDirect Storage divise par trois la charge du processeur lors des accès disque, ce qui libère du temps de calcul pour exécuter plus rapidement les applications.
Lors de la conférence ISC High Performance 2021 Digital qui s’est tenue fin juin, Nvidia a annoncé avoir ajouté le logiciel Magnum IO GPUDirect Storage à sa plateforme de supercalcul HGX AI, à sa carte GPU A100, modèle 80 Go/PCIe, et à son contrôleur InfiniBand NDR 400G. Nvidia a par ailleurs collaboré avec divers fournisseurs d’équipements réseau et de baies de stockage pour valider le fonctionnement de son pilote au travers de leurs solutions.
Parmi les fournisseurs de solutions de stockage déjà validés, Nvidia cite DDN, Vast Data et WekaIO. D’autres ont des produits en préparation, notamment Dell Technologies, Excelero, HPE, Hitachi Vantara, IBM, Micron, NetApp, Pavilion Data et ScaleFlux.
Steve McDowell, analyste chez Moor Insights & Strategy, estime que Magnum IO GPUDirect Storage sera le plus souvent utilisé avec des baies de stockage à hautes performances, capables de fournir le débit requis par les GPU et qui communiquent avec un protocole prenant en charge le RDMA, typiquement l’InfiniBand ou le NVMe-over-RoCE. Parmi les baies supportant le RDMA – qui consiste à prendre les données telles qu’elles sont présentées en mémoire –, il cite l’ESS 3200 d’IBM, l’EF600 de NetApp ou encore PowerScale de Dell EMC.
« Magnum IO GPUDirect Storage cible les installations avec un certain nombre de GPU et pour lesquelles les entrées/sorties sont un goulet d’étranglement. Je pense notamment aux clusters dédiés au Machine Learning », commente-t-il.
Les acteurs du stockage particulièrement enthousiastes
IBM est l’un des premiers fournisseurs de stockage à avoir manifesté son enthousiasme pour cette solution. Selon Douglas O’Flaherty, son directeur des alliances, l’utilisation de Magnum IO GPUDirect Storage entre une baie ESS 3200fonctionnant sous le système Spectrum Scale et un nœud de calcul DGX A100 (serveur Nvidia qui contient huit cartes GPU A100) peut presque doubler le débit de données, de 40 Go/s à 77 Go/s.
« Ce que cela montre pour Nvidia, c’est la quantité de données qu’un GPU peut traiter. Et ce que cela montre pour nous, c’est qu’il est possible d’avoir un maximum de débit vers le stockage avec un nombre réduit de baies ESS 3200 montées en parallèle », dit Douglas O’Flaherty.
IBM annonce qu’il a d’ores et déjà validé la solution avec des clusters (des « pods » dans le jargon de Nvidia) à deux, quatre et huit nœuds DGX A100. Il devrait supporter la solution sur les configurations « SuperPods », de 20 à 140 nœuds DGX A100, d’ici au quatrième trimestre.
La start-up Vast Data aurait quant à elle déjà signé d’importants contrats pour des configurations compatibles avec Magnum IO GPUDirect Storage. Son cofondateur Jeff Denworth cite un studio vidéo qui capture des données volumétriques pour créer des animations en 3D, des entreprises de la finance qui utilisent le moteur d’analyse Apache Spark conjointement avec la plateforme de data-science Rapids, ainsi que des centres de supercalcul qui exploitent les bibliothèques de Machine Learning PyTorch.
Jeff Denworth assure que l’utilisation de Magnum IO GPUDirect Storage dans les projets Rapids et PyTorch permet à Vast Data d’alimenter une base de données Spark ou Postgres standard environ 80 fois plus rapidement que ne pourrait le faire une baie NAS conventionnelle.
« Nous avons été agréablement surpris par la quantité de projets sur lesquels nous avons pu nous engager avec cette nouvelle technologie. Il ne s’agit pas de simplement exécuter des applications d’IA plus rapidement. Les entreprises ont quantité d’algorithmes orientés GPU qu’elles estiment pouvoir optimiser grâce à ce pilote de stockage », conclut Jeff Denworth.