Serveurs : Nvidia renouvelle ses gammes pour accélérer les datacenters
Le GPU H100 est désormais disponible, y compris sur une carte PCIe qui accélère également le réseau. Suivront des serveurs qui en embarquent huit exemplaires, puis le GPU graphique L40, lui aussi sous forme de cartes et de serveurs.
À l’occasion de son événement GTC 2022, Nvidia a présenté une nouvelle génération de produits pour le datacenter. Son GPU H100, attendu de longue date et dédié à l’IA comme au supercalcul, est désormais livré aux fabricants de serveurs. Nvidia le propose aussi sous la forme d’une carte PCIe prête à l’emploi. Plus tard, il commercialisera une nouvelle génération de serveurs DGX contenant huit GPU.
Sont également annoncés le GPU graphique L40 et les serveurs OVX qui les embarqueront, toujours en huit exemplaires. L’événement a par ailleurs été l’occasion d’en apprendre un peu plus sur Grace, le futur processeur ARM de Nvidia. On sait désormais qu’il sera livré dans des puces bicéphales. Elles contiendront soit deux processeurs Grace, soit un processeur Grace et un GPU GH100.
H100 désormais disponible
Il est donc enfin disponible. NVidia livre dès cette semaine des versions PCIe de son fameux GPU H100 aux constructeurs de serveurs. Les marques citées sont Dell, HPE, Cisco, Fujitsu, Lenovo, SuperMicro, Gigabyte et aussi Atos pour ses supercalculateurs.
« Dans un data center, vous n’avez plus besoin que de 64 GPUs H100 pour venir à bout des travaux effectués jusqu’ici par 320 GPUs A100 », explique Ian Buck, le patron de la branche Accelerated Computing chez Nvidia. Il précise que s’il faut cinq fois moins de serveurs, la consommation de ceux-ci n’est toutefois réduite que de 3,5 fois. Et pour cause : une puce H100 consomme jusqu’à 700W, alors que l’A100 plafonnait à 400 W.
Ian BuckV-P/General Manager, Hyperscale and HPC, NVIDIA
Dévoilé en mars dernier, le GPU H100 (H signifiant Hopper, le nom de l’architecture) repose sur une puce gravée en 4 nm chez TSMC et fonctionnant à 1,78 GHz. Il ne devrait servir qu’à accélérer les algorithmes de supercalcul ou d’IA dans le datacenter. C’est une première différence avec son prédécesseur, l’A100 (7 nm, 1,41 GHz), dont l’architecture Ampere était par ailleurs déclinée en GPUs pour cartes graphiques.
Supportant jusqu’à 80 Go de RAM dédiée HBM3 (mémoire où les circuits sont empilés pour maximiser les accès parallèles et qui est éventuellement assemblée dans la même puce que le circuit GPU), le H100 peut avaler et produire des données avec un débit de 3 To/s. Soit 50 % de mieux que l’A100.
On précisera que les circuits GPU eux-mêmes, sans la mémoire ni la logique d’interfaçage, sont respectivement appelés GA100 et GH100. Les A100 et H100 désignent plutôt l’ensemble fonctionnel. En pratique, un H100 et A100 sont soit des cartes d’extension, soit des modules complets livrés par Nvidia qui sont prêts à être intégrés sur la carte mère d’un serveur (ou assemblés sous la forme d’une carte PCIe chez un autre fabricant de cartes accélératrices).
Sur le H100, les unités de traitement Tensor Core de quatrième génération, qui servent à multiplier des matrices de tailles différentes, seraient six fois plus rapides que celles de troisième génération présentes dans l’A100. On dénombre aussi 16 896 unités de traitement CUDA Cores au lieu de 6 912 dans l’A100. Les unités CUDA cores font des opérations mathématiques assez basiques, mais elles fonctionnent toutes en parallèle à chaque cycle d’horloge. Une page sur le site de Nvidia liste les différentes quantités d’opérations par seconde (mesurées en téraflops) atteignables par ces unités, selon le niveau de précision souhaité.
Le terme « cores » choisi par Nvidia est trompeur. Il ne s’agit pas de cœurs de processeurs gravés en parallèle, mais juste de petits segments fonctionnels sur le circuit. Le circuit lui-même est plutôt découpé en 132 zones qui contiennent chacune 192 Ko de cache L1 (soit près de 25 Mo de cache L1), plus un cache partagé de 50 Mo.
Le H100 a aussi de nouveaux circuits Transformation Engine censés accélérer les algorithmes d’IA qui font de la reconnaissance d’empreintes textuelles, sonores ou visuelles. Selon Nvidia, il s’agit de faire passer les traitements en réseaux de neurones de plusieurs jours à quelques heures. Le constructeur donne un exemple : un travail de sept jours sur 8 000 GPU A100 devrait être accompli à présent en 20 heures.
Les serveurs HGX/DGX à base de H100 arriveront en 2023
Pour l’heure, Nvidia fournit aux constructeurs de serveurs des exemplaires de la puce avec contrôleur PCIe pour qu’ils les implémentent selon leurs designs. Il propose aussi lui-même une carte PCIe prête à l’emploi, la H100 CNX. Elle comprend, en plus du H100, une partie réseau ConnectX-7 avec deux connecteurs de 200 Gbit/s chacun (cumulables en 1x 400 Gbit/s). Cette partie sert à accélérer les communications entre les nœuds d’un cluster. Une version existe avec une connectique Infiniband.
Concernant les versions avec connectique SXM, il faudra attendre l’année prochaine. La connectique SXM consiste à mettre jusqu’à huit GPUs à plat sur une carte NVSwitch. Celle-ci, prolongeant la carte mère, apporte des liens NVLink à 900 Go/s entre les GPUs, pour qu’ils communiquent de manière autonome. Elle transporte aussi une connexion PCIe pour chacun des GPUs, afin qu’ils puissent individuellement dialoguer avec le ou les processeurs du serveur.
Les machines des fabricants équipées d’un tel montage sont traditionnellement appelées des serveurs HGX, pour les différencier des serveurs DGX que Nvidia fabrique lui-même. Nvidia parle de « pods » pour désigner les serveurs HGX ou DGX assemblés en clusters. Dans ces pods, les nœuds communiquent eux aussi en NVLink, puisque ce protocole supporte à présent d’interconnecter 256 GPUs (soit 32 serveurs de huit GPUs). Physiquement, les connexions NVLink circulent entre les serveurs via un réseau Infiniband Quantum-2. C’est-à-dire un réseau Infiniband accéléré par un DPU BlueField 3 que fabrique aussi Nvidia.
Nvidia a évoqué l’arrivée prochaine d’un supercalculateur « Eos » basé sur 18 clusters de 32 serveurs DGX. Une machine susceptible de délivrer 275 pétaflops (PFLOPS ou en anglais « floating-point operations per second ») en calculs classiques FP64 et 18000 PFLOPS en traitements FP8 pour l’IA.
Grace prendra place dans des puces « Superchip » bicéphales
L’événement GTC 2022 a aussi été l’occasion d’en apprendre un peu plus sur Grace, le futur processeur ARM que Nvidia met actuellement au point. Il aura 72 cœurs Neoverse V2, disposera de 117 Mo de cache et sera cadencé à une fréquence qui lui permettrait d’exécuter deux fois plus rapidement les threads (files d’instructions) que ne le font les processeurs x86 ou ARM actuels. La puce communiquera avec sa RAM à la vitesse de 500 Go/s, mais, en interne, les cœurs pourront se partager une bande passante de 3,2 To/s pour échanger des données.
A priori, Nvidia devrait proposer le Grace soit sous la forme d’une puce « SuperChip » comprenant deux processeurs (donc 144 cœurs), soit sous la forme d’une puce « Grace Hopper » qui comprend un processeur et un GPU H100. Dans les deux cas, les deux composants communiqueront via un bus NVLink qui leur offre une bande passante de 900 Go/s. Nvidia précise que cette vitesse est sept fois celle d’un nouveau bus PCIe 5.0 qui connecte d’ordinaire un GPU au processeur (128 Go/s).
Par ailleurs, ces puces bicéphales devraient également intégrer de la mémoire. Ici, ce sera de la LPDDR5X, c’est-à-dire de la DDR5 plus économe en énergie. On ignore encore sa capacité.
Nouvelle génération de serveurs graphiques OVX
En marge de ses produits pour le supercalcul et l’intelligence artificielle, Nvidia a annoncé l’arrivée prochaine de la seconde génération de serveurs graphiques OVX. Reprenant la formule des serveurs DGX, ceux-ci interconnecteront huit GPU Nvidia et seront construits par différentes marques de serveurs. Le but de ces machines est de produire des simulations graphiques, que ce soit pour déployer des jumeaux numériques ou des univers virtuels. Ces serveurs constituent la base de l’offre Omniverse, à présent déclinée en service cloud.
Les serveurs OVX sont récents. La première génération a été lancée en mars de cette année sur la base de GPUs A40, les versions graphiques des A100 avec qui ils partagent la même architecture Ampere.
La nouveauté de cette seconde génération est l’utilisation de GPUs L40. Avec un L comme (Ada) Lovelace, car, comme dit précédemment, il n’est plus question pour Nvidia d’utiliser la même architecture dans l’IA et dans la 3D.
Au contraire du H100, le L40 sera aussi le GPU des prochaines cartes graphiques Nvidia RTX 4000 grand public ; il est probable que la carte GPU présente dans l’OVX soit même très proche de la future carte graphique RTX6000. Comme le H100, le L40 est gravé en 4 nm par TSMC ; il consomme 300W. Il comprend 144 Mo de cache. Il s’accompagne de 48 Go de RAM GDDR6, installés à côté de la puce sur une carte PCIe 4.0 double slot. Ses unités de traitement sont dédiées au ray tracing (128 unités pour 200 TFLOPS), aux shaders (16 384 unités pour 90 TFLOPS), au floutage des pixels pour un rendu réaliste.
La puissance graphique peut être virtualisée pour accélérer les postes virtuels en VDI. À ce titre, Nvidia propose un dispositif MIG capable d’adresser telle quantité de bande passante à tel pourcentage de GPU. Le L40 peut aussi servir aux calculs avec une précision FP32. On trouve par ailleurs des unités de traitement Tensor Cores pour exécuter des algorithmes d’IA d’appoint.
Dans l’OVX de seconde génération, il n’y a pas de NVLink. Les huit GPUs communiquent entre eux, mais aussi avec le processeur et, en direct, avec les SSD NVMe, via les bus PCIe du serveur. Cet OVX dispose par ailleurs de trois cartes réseau ConnectX-7, chacune équipée de quatre ports en 100 Gbit/s. Le protocole de Nvidia permet d’enchaîner, ici aussi, jusqu’à 32 serveurs OVX dans un pod (un cluster).