Hot Chips 2024 : de l’accélération pour l’IA, le réseau et les applications
Après les fabricants historiques de processeurs, c’est au tour de l’hyperscaler Azure, du fabricant de contrôleurs Broadcom et d’un laboratoire de recherche universitaire chinois de présenter cette semaine les puces qui accéléreront demain les datacenters.
Le salon Hot Chips 2024, organisé cette semaine par l’université de Stanford, dans la Silicon Valley, continue de braquer sur lui les projecteurs de tout l’écosystème du calcul haute performance. Après Intel et ses puces dédiées, IBM et ses nouveaux processeurs pour mainframe, l’épisode du jour fait la part belle à trois projets qui passeraient d’ordinaire sous les radars, mais qui pourraient être déterminants pour la disponibilité des services d’IA.
Rappelons en effet que ces services reposent pour l’heure essentiellement sur des semiconducteurs que Nvidia livre au compte-gouttes aux centres de supercalculs et aux hyperscalers.
IA générative : Maia 100, l’accélérateur d’Azure pour les modèles OpenAI
Le salon Hot Chips 2024 a été pour Microsoft l’occasion de présenter pour la première fois sa puce d’accélération d’inférence Maia 100. Spécialement optimisé pour générer des contenus à partir des modèles préentraînés d’OpenAI, ce composant d’accélération doit permettre au cloud public Azure de ne plus investir dans des GPU Nvidia (estimés à 40 000 dollars l’unité) afin de ne faire que de l’inférence, alors qu’ils sont conçus pour l’entraînement de modèles.
En revanche, le Maia 100 ne devrait pas lui permettre d’économiser beaucoup d’énergie : la puce consomme 700 watts, exactement comme le H100 de Nvidia. Microsoft a précisé qu’il réduirait sa fréquence pour que l’accélérateur ne consomme que 500 watts en production. On ignore par ailleurs avec quel GPU de Nvidia le Maia 100 est véritablement censé rivaliser sur les travaux d’inférence. D’ici à la fin de l’année, Nvidia livrera en effet des B200 consommant 1 000 watts en remplacement de ses H100.
Gravé avec une finesse de 5 nm dans les usines de TSMC, le Maia 100 embarque 64 Go de mémoire HBM2E, ainsi qu’un impressionnant cache de 500 Mo et 12 contrôleurs Ethernet de 400 Gbit/s chacun. La puce dispose de 64 cœurs répartis sur 16 circuits. Chaque cœur dispose d’une unité de traitement matricielle et d’une autre pour les vecteurs. C’est peu. Mais tout le génie de cette puce reposerait sur le routage des données entre les cœurs, qui aurait été pensé selon la topologie des modèles d’OpenAI.
Outre la puce en elle-même, Microsoft a insisté sur la disponibilité de kits de développements pour produire du code optimisé. Un point important est en effet que les kits Cuda de Nvidia ne sont pas compatibles avec cette puce.
Réseau : Un ASIC Broadcom pour accélérer les débits des clusters d’IA
On a tendance à l’oublier du fait de son actualité chargée aux commandes de VMware, mais l’activité principale de Broadcom est la fabrication de semiconducteurs, principalement des contrôleurs et autres chipsets. Le fabricant est venu à Hot Chip 2024 pour présenter un ASIC « AI Compute » dédié aux communications sur fibres optiques. L’enjeu est de proposer aux data centers qui consomment beaucoup d’énergie et de bande passante dans les calculs d’IA un switch haut débit peu énergivore.
Assis dans un design de switch réseau de taille 4U et appelé Tomahawk 5-Bailly, cet ASIC peut router 51,2 Tbit/s vers 8 convertisseurs photoniques montés sur la même puce. Ils sont capables de générer chacun des signaux lumineux avec une bande passante de 6,4 Tbit/s.
Via un système purement optique de séparation des fréquences (fréquences qui sont d’ailleurs calculées par l’ASIC), le switch répartit ensuite ces 8 signaux lumineux pour proposer jusqu’à 128 ports SFP optiques, offrant chacun 400 Gbit/s de bande passante.
Comparativement à un switch optique traditionnel, conçu à base de puces DSP pour convertir les données en signaux lumineux, le Tomahawk 5-Bailly consommerait 30 % d’énergie en moins. Dans les faits, l’économie d’énergie se fait surtout sur les 8 convertisseurs photoniques montés sur la puce et leurs 16 séparateurs de fréquence. Ensemble, ils consomment 359 watts, là où suffisamment de DSP pour autant de bande passante consommeraient un total de 1 024 watts.
Accessoirement, Broadcom a aussi imaginé installer son ASIC avec un seul convertisseur photonique sur une carte réseau à installer côté serveur pour que celui-ci atteigne une bande passante de 6,4 Tbit/s via 64 ports 100 Gbit/s. Avec autant de ports, il deviendrait possible de bâtir un cluster de calcul contenant 512 GPU Nvidia (à raison de 8 GPU par serveur) capables de communiquer directement entre eux en NVLink via 64 switches Tomahawk 5-Bailly.
Ces solutions devraient arriver sur le marché en 2025. Broadcom prévoit ensuite d’améliorer la puce côté serveur pour que, en 2027, l’ASIC soit accompagné de deux convertisseurs photoniques (12,8 Tbit/s) et, en 2028, de quatre convertisseurs photoniques (25,6 Tbit/s). Reste à savoir si la puissance de calcul des GPU suivra, pour avaler ou générer autant de données à ces dates.
Traitements génériques : XianShan, des Risc-V chinois
Terminons avec la présentation du projet de processeur Open source chinois XianShan. Développé par les chercheurs du laboratoire Peng Cheng de l’université chinoise ICT CAS, il vise à développer des processeurs concurrents aux ARM sur la base de l’architecture Open source RISC-V.
Deux modèles sont en développement. L’architecture Kunminghu (1 Mo de cache par cœur) entend rivaliser de puissance dans les data centers et les supercalculateurs avec les ARM Neoverse N2 (AmpereOne, Graviton4, Rhea…). L’architecture Nanhu (256 Ko de cache par cœur) vise plutôt l’économie d’énergie pour exécuter des applications calibrées pour les cœurs ARM Cortex A76. On trouve notamment ces derniers dans les équipements embarqués des voitures, dans les Raspberry Pi 5 ou encore sur les cartes FPGA Agilex-D d’Intel.
Le laboratoire Peng Cheng a déjà fait fabriquer en 2023 des Kunminghu V1 à 3 GHz et des Nanhu V3 à 2 GHz, respectivement gravés avec une finesse de 7 et 14 nm dans les usines du Chinois SMIC. De nouvelles versions Kunminghu V2 et Nanhu V5 devraient sortir des mêmes usines d’ici à la fin de l’année. Ces premiers exemplaires ont juste vocation à servir de support pour tester du code, avec des outils et des montages électroniques disponibles sur GitHub et qui sont tous censés rester Open source.
Au-delà des cœurs de processeurs, le laboratoire Peng Cheng planche sur une architecture multicœur. Il met au point un circuit de routage central qui routerait les signaux entre huit circuits, pouvant chacun contenir plusieurs cœurs Kunminghu (performants) et Nanhu (économiques) autour d’un cache partagé localement.