Après HPE ou SuperMicro, Cisco livre un n-ième clone de l’architecture DGX-1 de NVidia
Le constructeur a récemment présenté le serveur UCS C480 ML M5, une machine spécifiquement conçue pour l'exécution d'applications d'intelligence artificielle et de machine learning, dont l'architecture s'inspire étroitement de celle du DGX-1 de Nvidia. Cisco propose ainsi une alternative à des designs similaires d'HPE et Supermicro.
Cisco a dévoilé la semaine dernière le serveur UCS C480 ML M5, une machine optimisée pour les applications d’IA et d’apprentissage machine dont l’architecture reprend les canons définis par le DGX-1 de NVidia. Le constructeur suit ainsi l’exemple de plusieurs de ses concurrents, dont HPE et Supermicro.
Le DGX-1 est un système tout-en-un spécifiquement conçu et optimisé par NVidia pour les applications de calcul intensif, d’IA et d’apprentissage machine. Cette « appliance » peut accueillir 8 accélérateurs graphiques (GPU) de classe Tesla V100, reliés entre eux par le bus à hautes performances NVLink de NVidia. L’usage de NVLInk permet aux GPU de communiquer sans passer par le bus PCIe, plus lent. L’étage de GPU du DGX-1 reste toutefois piloté par un serveur bi-socket Xeon SP, auquel il est interconnecté par des liens PCIe. Ce serveur fournit des capacités de calcul additionnelles et a également pour mission de délivrer un stockage local 100 % Flash performant ainsi que des capacités d’interconnexions avancées (via Infiniband ou 100 Gigabit Ethernet).
En mars 2018, HPE a repris les canons de design du DGX-1 pour développer son Apollo 6500, un système conçu en lien étroit avec NVidia. Par rapport à ce dernier, HPE a apporté quelques améliorations comme le support de processeurs plus modernes (le DGX-1 a été lancé avec des Xeon E5v4, là où HPE a opté pour des Xeon SP), le support de bien plus de SSD (pour une capacité de stockage et des performances améliorées) et le support de plus d’options de connectivité.
SuperMicro a fait de même pour son SYS-4029GP-TXRT, lui aussi directement inspiré du DGX-1.
Le C480 ML M5, ultime variante du DGX-1
La machine développée par Cisco ne révolutionne pas le genre même si elle apporte quelques variations bienvenues (que Cisco détaille dans un billet de blog). L’UCS C480 ML M5 – « ML » pour machine learning – embarque ainsi le même étage de huit accélérateurs Tesla V100 que ses concurrents, tous reliés par le bus NVLink. Ce n’est donc pas sur ce point que Cisco se différencie.
La partie serveur est en revanche plus intéressante. Cisco a opté pour deux Xeon SP capables de gérer un maximum de 3 To de mémoire vive et a choisi de soigner les capacités de stockage de sa machine. Il est possible d’insérer jusqu’à 24 disques en face avant du châssis, dont 6 disques NVMe. Selon Cisco, le serveur peut ainsi piloter jusqu’à 182 To de capacité de stockage flash. La partie réseau est, quant à elle, assurée par 4 cartes Ethernet VIC 1495 (Virtual Interface Card) à 100 Gigabit.
Comme dans tous les designs similaires, Cisco touche aux limites actuelles des architectures Intel, dont les processeurs Xeon n’ont qu’un nombre limité de liens PCIe, ce qui oblige le constructeur à faire des compromis entre le nombre de liens réservés aux communications avec les GPU et à ceux dédiés à la connectivité réseau et aux disques NVMe.
En parallèle du lancement du C480 ML M5, Cisco travaille sur un design validé avec la distribution Hadoop d’Hortonworks. L’idée serait d’utiliser le C480ML comme colonne vertébrale pour l’exécution d’applications analytiques en conteneurs faisant usage de composants comme Apache Spark et tirant parti de librairies de machine learning comme Google TensorFlow.
Cisco est par ailleurs un contributeur au projet open source KubeFlow visant à intégrer l’orchestrateur Kubernetes avec Tensorflow, mais aussi avec d’autres frameworks comme PyTorch ou Chainer (réseaux neuronaux). Il y a fort à parier que le C480 ML M5 est vu en interne comme la machine cible idéale pour des implémentations mettant en oeuvre KubeFlow.
Des architectures en passe d’être rendues obsolètes par le DGX-2
Notons pour terminer, que l’intérêt des constructeurs pour le design du DGX-1 semble d’autant plus curieux en cette fin d’année 2018 que NVidia a dévoilé en mars dernier le DGX-2.
Ce nouveau monstre de performance est capable d’accueillir jusqu’à 16 GPU reliés entre eux par un commutateur crossbar NVLink spécifiquement développé par NVidia. Sa partie serveur intègre la plupart des améliorations apportées par les constructeurs depuis le lancement du DGX-1, dont le support des processeurs Xeon SP, une connectivité renforcée et une partie stockage plus musclée.
Un DGX-2 pleinement configuré est vendu aux environ de 400 000 $, là où le DGX-1 et ses émules sont proposés aux environ de 150 000 $.