Hot Chips 2024 : IBM présente en avant-première le mainframe z17
La prochaine génération de mainframes IBM disposera d’un processeur Telum II 20 % plus rapide, 70 % plus économe sur les transactions et d’une multitude d’accélérateurs Spyre pour l’IA.
Le mainframe évolue encore. Lors de la conférence Hot Chips 2024, qui se tient cette semaine à l’université de Stanford, dans la Silicon Valley, IBM a dévoilé le processeur Telum II. Il succédera en 2025 au Telum premier du nom qui anime les actuelles machines z16. Outre ce nouveau processeur, les prochains mainframes z17 bénéficieront de cartes d’extension PCIe dédiées à l’accélération des algorithmes d’inférence. Elles seront basées sur une nouvelle puce DPU, l’IBM Spyre, également dévoilée lors de l’événement.
Gravé avec une finesse de 5 nm dans les usines de Samsung, le processeur Telum II intègre huit cœurs de calcul cadencés à 5,5 GHz, 16 cœurs DPU pour transformer les données à la volée, un circuit « d’accélération d’IA » d’une puissance de 24 TOPS et un cache de 360 Mo partageable entre toutes ces unités de traitement.
+20 % de performances et -70 % de consommation pour les applications Java
Les cœurs de calcul seraient 20 % plus performants que ceux du précédent Telium. Pour mémoire, chaque cœur d’un processeur de mainframe est conçu pour exécuter deux machines virtuelles Linux. Mais alors qu’une VM Linux exécutée sur un cœur x86 est capable de répondre à une centaine de requêtes simultanément, chaque VM Linux exécutée sur un cœur Telium serait, selon IBM, capable de répondre « à des milliers de requêtes simultanément ». Manifestement, les requêtes dont il est ici question sont celles des applications web écrites en Java, un langage directement accéléré par les circuits des cœurs de conception IBM.
Christian JacobiDirecteur technique d’IBM
Concernant les cœurs DPU, IBM a rappelé dans sa présentation qu’un mainframe Z16 – sans cœur DPU – pouvait déjà décoder/encoder à la volée 25 milliards de transactions chiffrées par jour. Le présentateur a précisé que ce nombre était supérieur à la quantité quotidienne de requêtes Google, de posts Facebook et de tweets cumulés. Intégrer ces fonctions de décodage/encodage dans des cœurs dédiés permettrait de réduire 70 % de l’énergie qu’elles consomment quand elles sont exécutées directement par les cœurs.
Enfin, voici ce que Christian Jacobi, le directeur technique d’IBM qui dessine l’architecture des processeurs z et Power, dit concernant le circuit d’accélération d’IA :
« Nos solutions de détection des fraudes basées sur l’IA accélérée dans le premier processeur Telum ont permis à nos clients d’économiser des millions de dollars par an. Forts de ce succès, nous avons considérablement amélioré l’accélérateur d’IA sur le processeur Telum II. Il ne s’agit pas seulement de lui faire atteindre 24 TOPS à présent (…) Il s’agit de pouvoir exécuter dans le même processeur Telum II à la fois des applications critiques demandeuses de ressources et, simultanément, de faire de l’inférence sur les derniers modèles d’IA sans générer de latence. »
Une machine surpuissante pour l’inférence
Chaque boîtier rack de calcul dans un mainframe z17 contiendra 8 processeurs Telum (soit 64 cœurs), à raison de quatre sockets comprenant chacun un « chiplet » de deux processeurs. Ces 8 processeurs se partageront 16 To de RAM DDR5. Un mainframe z17 pourra contenir de un à quatre boîtiers rack de calcul, soit un maximum de 32 processeurs, 256 cœurs, 64 To de RAM et 768 TOPS de performances pour les algorithmes d’inférence.
Il est à noter que les bus XBus et Abus, qui servent à interconnecter les processeurs entre les boîtiers racks, permettent désormais à n’importe quel cœur de n’importe quel processeur de dialoguer avec n’importe quel circuit d’accélération IA contenu dans n’importe quel autre processeur.
Le mainframe z17 disposera en outre de douze boîtiers racks, offrant chacun 16 slots PCIe 5.0 (soit 192 slots en tout), dans lesquels s’inséreront les unités de stockage Flash et les cartes d’accélération.
Parmi celles-ci, arrivent donc celles basées sur la nouvelle puce Spyre. Également gravée en 5 nm par Samsung, elle comprend 34 cœurs – dont 32 actifs simultanément –, qui correspondent chacun au « circuit d’accélération d’IA » que l’on trouve dans le processeur Telum II. Chaque cœur s’accompagne de surcroît d’un cache de 2 Mo dédié.
Ces cœurs sont conçus pour exécuter des fonctions matricielles et vectorielles avec des données entières ou à virgule très courtes, de 4, 8 ou 16 bits (INT4, INT8, FP8, FP16). Ce fonctionnement est le plus efficace en inférence, où l’on transcode le sens d’une information en entrée en vecteurs mathématiques qui servent à cheminer dans un modèle préentraîné pour générer une réponse.
La carte accélératrice en elle-même dispose de 128 Go de RAM LPDDR5. Elle délivre une puissance totale de 300 TOPS pour une consommation énergétique de 75 watts. Chaque carte peut communiquer avec les autres et avec la RAM présente sur les racks de calcul à la vitesse de 200 Go/s.
Lors de sa présentation à Hot Chips 2024, IBM a laissé entendre que le même circuit d’accélération d’IA pourrait se retrouver dans le prochain processeur Power11 et que les mêmes cartes Spyre pourraient être utilisées dans les machines AIX dotées de ce processeur. Le processeur Power11, également prévu pour 2025, n’a pas été présenté lors de l’événement.