Getty Images/iStockphoto
Astera Labs désagrège les clusters de calcul avec un câble
Le spécialiste de la connectique a mis au point un câble qui permet de transmettre les données d’un bus PCIe sur sept mètres, concrétisant les promesses du protocole CXL et répartissant les points chauds dans le datacenter.
Astera Labs, le fabricant de connectique pour serveurs, lance un nouveau câble permettant d’étendre les clusters de GPU dans un datacenter. Son produit serait clé dans les travaux d’entraînement des modèles d’IA pour répartir les racks dans les allées, de sorte à réduire l’intensité des dégagements de chaleur, et, ce qui va avec, la consommation d’énergie des climatiseurs.
Baptisés Aries, ces nouveaux câbles à embout SCM sont faits de cuivre et sont capables de transporter le flux d’un bus PCIe 5.0 sur sept mètres, contre seulement trois mètres jusqu’ici. Astera Labs y parvient en plaçant dans l’embout SCM un DSP dédié au protocole et capable de compenser à la volée les dégradations de la transmission.
Cette longueur accrue permet une plus grande interconnectivité entre les GPUs, mais aussi entre des processeurs et des barrettes de RAM installés dans d’autres nœuds de calcul, une possibilité offerte par le protocole CXL qui étend le bus PCIe en réseau.
Concrètement, il n’est plus nécessaire de tous les entasser dans la même étagère Rack pour qu’ils communiquent. Il devient possible de les répartir entre plusieurs étagères. Et, de fait, d’augmenter le nombre de composants interconnectés, puisque leur quantité n’est plus limitée par la chaleur qui se dégage d’une seule étagère.
Un câble qui devrait propulser CXL sur le marché
« Pour la première fois, il devient possible d’avoir une communication qui maintient la cohérence des caches entre les serveurs d’un cluster d’IA au-delà d’une seule étagère rack », commente l’analyste Baron Fung, du cabinet de conseil Dell’Oro Group.
Baron FungAnalyste, cabinet de conseil Dell’Oro Group
« Non seulement cela devrait propulser la carrière commerciale des produits CXL, qui démarre timidement, mais cela pourrait aussi mettre le tout venant des fabricants de GPU sur un pied d’égalité avec Nvidia. Car dès lors que vous n’avez plus de problème de connexion pour augmenter le nombre de GPUs, vous n’avez plus besoin d’installer les GPUs qui condensent le plus de puissance en un seul endroit », ajoute-t-il.
Il fait remarquer que le protocole CXL – un standard ouvert défini par Intel – concrétise l’élasticité des clusters de calcul. Jusqu’alors, la seule possibilité pour répartir les calculs en cours de traitement entre plusieurs serveurs – c’est-à-dire commencer un traitement sur un serveur et, si celui-ci est saturé, le poursuivre sur un autre serveur du réseau – n’était faisable qu’au travers des connectiques propriétaires NVLink de Nvidia.
Sans nécessairement permettre de multiplier les marques de GPUs dans un seul cluster, le protocole CXL est théoriquement capable d’interconnecter des GPUs comme le MI300 d’AMD, tout comme NVLink interconnecte des GPU H100 de Nvidia. Avec l’avantage que le MI300 est à l’heure actuelle plus rapidement disponible sur le marché, pour un prix moins élevé. Et Intel doit aussi lancer des produits dans cette gamme, avec des conditions toujours plus avantageuses.
Désagréger aussi les clusters SAP Hana
« Au-delà des clusters de GPUs, toutes les applications qui ont besoin de beaucoup de mémoire, typiquement SAP HANA, sont susceptibles de bénéficier du CXL, car il permet à un serveur d’aller chercher de la RAM supplémentaire dans d’autres serveurs », observe le consultant Nathan Brookwood du cabinet d’études Insight64. « Et tant mieux s’il est possible d’aller chercher cette RAM supplémentaire dans une autre étagère pour réduire les points chauds du data center. »
Nathan Brookwood a parfaitement conscience que des données qui parcourent 7 mètres passeront nécessairement moins vite du processeur à la RAM que lorsque tous les composants sont sur la même carte mère. Mais il s’agit pour lui d’un faux problème : « Évidemment, utiliser les câbles d’Astera Labs induira de la latence dans les traitements. Mais celle-ci est absolument anecdotique au regard du gain de performance apporté par l’accès à de la mémoire supplémentaire. »
Selon lui, il y a cependant bien un inconvénient, mais il est d’une autre nature : « le problème avec les câbles d’Astera Labs est qu’ils sont mis sur le marché alors que la norme CXL n’est pas encore complètement définie. Il existe donc un risque que le dispositif embarqué dans les embouts SCM ne soit plus compatible avec les prochaines évolutions », conclut-il.