Serveurs : IBM décline son Z16 en un mini LinuxONE 4 Express
Occupant 16U dans une étagère rack standard, la machine exécute tous les traitements Linux d’un cluster x86 contenant 384 cœurs, mais consomme 75 % d’énergie en moins.
On n’attendait plus que lui. IBM, le pionnier de l’intelligence artificielle – son ordinateur Deep Blue champion d’échecs au début des années 90, son chatbot Watson qui gagne aux jeux télévisés en 2011… – lancera d’ici à la fin du mois une machine d’appoint pour faire de l’IA générative dans les laboratoires de recherche et les PME : le LinuxONE 4 Express.
Dernière déclinaison matérielle en date du mainframe Z16, Le LinuxONE 4 Express est facturé 135 000 dollars en version de base. Mais, à puissance comparable avec un cluster de serveurs x86 qui totalise 384 cœurs, la machine d’IBM coûterait 52 % moins cher au bout de cinq ans, parce qu’elle consommerait 75 % d’énergie en moins.
En vérité, la machine est aussi versatile qu’un cluster de serveurs x86. Mais IBM la positionne plus particulièrement sur le segment des équipements conçus pour l’IA générative, car sa faible consommation et la présence de circuits accélérant, là, l’inférence et, là, le chiffrement des données privées sont des caractéristiques particulièrement recherchées par les entreprises qui se lancent dans le déploiement de modèles préentraînés.
Une capacité de calcul optimisée pour éviter les latences
À ce prix, le LinuxONE 4 Express contient trois processeurs Telum cadencés à 4,6 GHz, qui offrent chacun huit cœurs pour exécuter un maximum de seize machines virtuelles, ou « partition Linux ». La différence est que ces machines virtuelles peuvent répondre en même temps à des milliers de requêtes, alors qu’une VM x86 en traite classiquement moins d’une centaine. Des benchmarks suggèrent un rapport de 1 à 20 concernant la quantité de flux exécutés simultanément.
Il faut dire que les processeurs Tellum se composent d’une multitude de circuits parallèles qui intègrent tout : le calcul, l’accélération pour l’inférence, le chiffrement de la mémoire, le contrôleur réseau qui communique en RoCE. On y trouve même un circuit qui accélère les codes écrits en Java.
Surtout, conception mainframe oblige, il n’y a jamais que 16 cœurs qui fonctionnent en même temps dans la machine. Les autres servent à prendre le relais dans les moments de latence, de sorte qu’il n’existe jamais de temps mort. Un tel dispositif n’existe pas sur les serveurs x86. Dans ceux-ci, tous les cœurs sont mis à contribution pour exécuter des flux applicatifs. Et tant pis s’ils sont plusieurs à se tourner les pouces en attendant des transferts mémoire ou des entrées/sorties sur le réseau et le stockage.
Chaque cœur du processeur Telum s’accompagne d’une mémoire cache de 32 Mo. La puce est gravée avec une finesse de 7 nm dans les usines de Samsung.
Installable dans n’importe quel datacenter
Les LinuxONE sont des versions des mainframes Z qui n’exécutent que le système Linux et ses logiciels classiques. Notamment les applications que les entreprises écrivent classiquement en Java ou Python et qu’elles déploient en containers Kubernetes. Il n’est pas possible d’utiliser sur un LinuxONE le système z/OS des mainframes avec son cortège d’applications financières hautement critiques et leurs codes écrits en Cobol.
Il existe à présent trois modèles de LinuxONE. En haut de gamme, le LinuxONE Emperor 4 se compose d’une à quatre armoires, pour un maximum de 32 processeurs Telum à 5,2 GHz (200 cœurs utilisés simultanément) et jusqu’à 48 To de RAM. Il s’agit du modèle physiquement identique au Z16.
En milieu de gamme, le LinuxONE Rockhopper 4 n’a qu’une seule armoire de 12 processeurs à 4,6 GHz (68 cœurs utilisables en même temps) et un maximum de 16 To de RAM. L’intérêt de ce modèle est qu’il existe en une version rack compatible avec les étagères du même nom présentes dans tous les data centers.
Un avantage que l’on retrouve sur le LinuxONE 4 Express. Il occupe les deux cinquièmes d’une étagère rack standard (16U), laissant de la place pour déployer une baie de stockage au même endroit. Il est livré en version de base avec 384 Go de RAM et deux options servent à atteindre 512 ou 864 Go de RAM.
Il est intéressant de noter que les options ne vont pas plus loin, alors que, sur les versions Emperor 4 et Rockhopper 4, IBM propose plusieurs configurations processeurs. Le Rockhopper 4 peut par exemple n’être facturé que pour 5, 16 ou 32 cœurs, avec la possibilité d’activer les cœurs restants, lorsque l’entreprise cliente est prête à investir plus dans ses calculs. Un modèle de paiement à l’usage historique sur les mainframes et qui fait aujourd’hui écho aux contrats « as-a-Service » du cloud.
Côté système, les LinuxONE, tout comme les mainframes Z, supportent de fonctionner sous les Linux de Red Hat, Suse, ou (c’est nouveau) sous Ubuntu. Du point de vue des utilisateurs et des développeurs, la machine offre exactement les mêmes services qu’un cluster x86 sous Linux, la recompilation des codes pour les cœurs Telum étant transparente lors de la mise en production des applications.