Super serveurs : Dell annonce deux configurations très haut de gamme

Le PowerEdge M7725, destiné au supercalcul, permet de constituer un cluster de 27.000 cœurs AMD Epyc 9005, tandis que le PowerEdge XE9712 permet de cumuler 72 GPU Blackwell et 36 processeurs ARM Grace de Nvidia. Dans une seule baie de 70 kW.

par

Yann Serra, LeMagIT

Publié le: 23 oct. 2024

Après Lenovo, Dell présente à son tour deux serveurs dédiés au supercalcul et à l’entraînement de modèles d’IA qui sont basés, pour le premier (PowerEdge M7725), sur la toute dernière génération de processeurs x86, et, pour le second (PowerEdge XE9712), sur l’ensemble GB200 de Nvidia. À la différence de Lenovo, ces machines ne tiennent pas dans une étagère rack standard de 19 pouces, mais dans une baie Dell IR7000 de 21 pouces de large. Cette taille correspond au format OCP (Open Compute Platform).

Une autre différence est le choix du processeur x86 sur le serveur destiné au supercalcul. Alors que Lenovo a résolument fait le choix du Xeon 6P d’Intel en laissant entendre que la question d’une alternative ne se posait pas encore, Dell ne propose à date que l’Epyc 9005 d’AMD en expliquant que des versions Intel arriveraient plus tard.

Il y a sans doute quelque chose à interpréter sur les capacités de production des deux fabricants de processeurs et sur l’appétit des constructeurs à réserver l’ensemble des premiers exemplaires sortis d’une des deux usines. On se souvient que Dell a pareillement annoncé il y a dix jours toute une nouvelle gamme de serveurs pour l’IA générative exclusivement basés, là aussi, sur des AMD Epyc 9005.

Il faudra sans doute attendre fin novembre, à l’occasion du salon HPE Discover qui se tiendra à Barcelone, pour voir comment HPE, le troisième plus important fabricant de serveurs pour les entreprises, se débrouille avec les capacités de production sous pression d’Intel et AMD. Pour le Xeon 6P, Intel inaugure de toutes nouvelles chaînes de gravure encore en rodage. Quant à AMD, il souffre toujours de devoir jouer des coudes sur les dernières chaînes de gravure de TSMC qui produisent aussi les puces d’Apple et de Nvidia.

Comme chez Lenovo, en revanche, les deux GPU du set GB200 sur la machine Dell dédiée à l’entraînement de LLM sont simplement cités sous leur nom de code « Blackwell ». Dell et Lenovo semblent ne pas pouvoir dire à ce stade si Nvidia leur fournira des B100 (700 watts par puce) ou B200 (1000 watts par puce) lorsqu’il aura fini de les faire fabriquer par TSMC. A priori un peu avant l’été 2025, au moment où le Dell PowerEdge XE9712 et le SC777 v4, son équivalent chez Lenovo, devraient être commercialisés.

Des baies de calcul de 70.000 watts

Le PowerEdge XE9712 est une machine haute de 1U qui contient deux ensembles GB200, soit deux processeurs ARM Grace, chacun relié à deux GPU Blackwell. Via le nouveau contrôleur réseau NVL72 de Nvidia, il est possible d’interconnecter 18 PowerEdge XE9712 dans la baie IR7000 pour atteindre 36 processeurs Grace et 72 GPU capables de travailler de concert.

Dell indique qu’une telle configuration serait « 25 fois » plus performante sur l’entraînement de LLM et « jusqu’à 30 fois » plus performante quand il s’agit de l’utiliser pour faire de l’inférence (utilisation d’IA générative à partir d’un LLM déjà entraîné), comparativement à une configuration à base de GPU H100. Le constructeur ne précise pas quelle configuration exactement. Sans doute celle qu’il proposait l’année dernière, à savoir le PowerEdge XE9680 doté de 8 GPU H100.

Le PowerEdge M7725, également présenté dans un boîtier 1U, contient pour sa part deux serveurs biprocesseurs, soit quatre Epyc 9005 par machine, et il est possible d’en placer 36 dans la baie IR7000, soit un total de 72 serveurs. Sachant qu’un Epyc 9005 peut contenir jusqu’à 192 cœurs, un centre de recherche pourra déployer dans une seule baie 27648 cœurs x86. Dell

Les deux modèles de serveurs sont refroidis avec un système hybride d’eau circulant dans leurs entrailles et de ventilateurs qui expulsent le surplus de calories. Et pour cause. Chaque processeur Epyc 9005 dissipant à présent 500W, un PowerEdge M7725 émet au minimum 2000W de chaleur. Quant au PowerEdge XE9712, ses quatre GPU cumulent à minima 2800 W, auxquels s’ajoute un total de 1000 W pour les deux Grace.

Respectivement, les deux configurations font grimper la baie remplie à 72 et 68,4 kW. Sans compter les switches réseau, qui occupent 4U en version x86 et 9U en version Nvidia. Dell assure que les épais tuyaux d’arrivée et de départ d’eau à l’arrière de l’IR7000 pourraient refroidir jusqu’à 480 kW, mais il est probable que le constructeur évoque plus exactement un cluster de six baies reliées à la même pompe hydraulique en bout d’allée.

Un nouveau stockage PowerScale pour ces serveurs

Le constructeur accompagne ces serveurs très hautes performances d’une nouvelle version de baie de stockage NAS PowerScale. Il s’agit sans doute du projet Lightning évoqué en mai dernier par le constructeur. Cette nouvelle version sera capable de communiquer avec les serveurs via des liens Ethernet en 200 Gbit/s, contre 100 Gbit/s auparavant. Pour mémoire, une baie PowerScale est un cluster de serveurs PowerEdge embarquant fonctionnant sous le système de stockage OneFS, hérité des baies de disques Isilon. Un tel cluster peut comprendre de 3 à 252 serveurs.

D’ici à quelques semaines, ces baies PowerScale pourront être équipées d’une toute nouvelle génération de SSD QLC dont la capacité individuelle sera de 61,4 To, soit le double des SSQ QLC actuels qui atteignent 30,7 To.

À la manière des efforts fournis par NetApp pour aider l’ingestion des données dans un moteur d’IA, OneFS va bientôt être pourvu d’un module qui génère des métadonnées à partir des fichiers qu’il indexe. Ces métadonnées doivent servir aux entreprises à mieux sélectionner les fichiers qu’elles comptent soumettre à l’IA. Dell indique qu’une telle sélection se ferait à partir d’une base de données Iceberg, interrogeable par Elasticsearch et regroupant les métadonnées. L’ensemble est baptisé Dell Data Lakehouse.

Comme chez NetApp, Dell promet qu’il sera possible d’avoir une base de métadonnées unique, globale pour plusieurs baies PowerScale étanches entre elles.

Super serveurs : Dell annonce deux configurations très haut de gamme

Le PowerEdge M7725, destiné au supercalcul, permet de constituer un cluster de 27.000 cœurs AMD Epyc 9005, tandis que le PowerEdge XE9712 permet de cumuler 72 GPU Blackwell et 36 processeurs ARM Grace de Nvidia. Dans une seule baie de 70 kW.

Des baies de calcul de 70.000 watts

Un nouveau stockage PowerScale pour ces serveurs

Pour approfondir sur HPC

Dell étend son AI Factory avec de nouveaux serveurs AMD

Stockage : Dell évoque un mystérieux projet « Lightning »

Derrière Mad Max Furiosa, une infrastructure au service de l’IA

Dell World 2024 : Dell dévoile sa stratégie AI Factory