Puces pour l’IA : AMD officialise son GPU MI325X

Le nouveau GPU d’AMD est censé rivaliser avec le H200 de Nvidia. Ses caractéristiques supérieures sur le papier lui permettent d’atteindre des performances somme toute similaires. Reste à connaître son prix.

AMD n’a pas fait que lancer son dernier processeur Epyc 9005 ces derniers jours. Il a aussi annoncé la nouvelle évolution de son GPU MI300X, le MI325X, disponible d’ici à la fin de l’année, et sa suite, le MI350X.

Le point le plus saillant du MI325X est la quantité de mémoire embarquée dans la puce : 256 Go. Qui plus est de type HBM3E, pour atteindre la bande passante record de 6 To de données lues ou écrites par seconde au niveau des cœurs. Le MI300X a 192 Go de RAM HBM3 tout court, avec une bande passante de 5,3 To/s.

Ainsi, si les cœurs de calcul n’évoluent pas – il s’agit toujours des mêmes CDNA 3 que précédemment – AMD peut se targuer de rivaliser avec l’actuel H200 que Nvidia a commencé à livrer aux hyperscalers et fabricants de serveurs.

Selon les benchmarks présentés par AMD, et qu’il convient donc de prendre avec des pincettes, un MI325X serait 10 % plus rapide qu’un H200 pour entraîner un modèle d’IA comme le LLM Llama-2 7B. Sur un serveur équipé de 8 GPUs, les configurations H200 et MI325X obtiendraient des résultats similaires.

Le gros défaut des puces de Nvidia est leur prix : 40 000 dollars par GPU. Il était attendu qu’AMD propose un prix beaucoup plus agressif, mais le fournisseur s’est étonnamment gardé de partager tout détail tarifaire.

Le précédent MI300X, qui rivalise avec le précédent H100 de Nvidia, coûte environ 20 000 dollars l’unité. On ignore à ce stade si la présence d’une grande quantité de mémoire HBM3E, dont la fabrication met sous pression les fondeurs, va permettre à AMD de conserver un prix deux fois moins cher.

Une compétition difficile avec le H200 de Nvidia

À titre de comparaison, un H200 n’a que 141 Go de mémoire HBM3E (pour une bande passante de 4,8 To/s). Le H100, lui, avait 80 Go de RAM HBM3 (pour une bande passante de 2 To/s). Nvidia a conservé le même prix tout en ajoutant 75 % de mémoire. Doit-on comprendre qu’AMD n’est pas encore certain de parvenir à faire de même avec l’ajout de 33 % de mémoire en plus ?

Il est possible qu’AMD, en arrivant après Nvidia, souffre d’un prix de fabrication qui a entretemps explosé du fait d’une pénurie probable. Lors de la publication récente de ses résultats, Micron, l’un des trois fabricants de mémoires HBM, avec Samsung et SK Hynix, déclarait ne plus pouvoir prendre de commande avant la fin de l’année 2025, tant sa production n’arrivait plus à suivre les demandes en cours. On se souvient que, initialement, AMD avait prévu de lancer le MI325X avec 288 Go de RAM.

Un autre point à considérer est la consommation d’énergie. Le MI300X avait une enveloppe thermique de 750 watts. Le nouveau MI325X grimpe à 1 000 watts. Sachant que Nvidia est parvenu à conserver une enveloppe thermique de 700 watts entre ses H100 et H200, il est vraisemblable que les GPU d’AMD coûteront plus cher en électricité. C’est-à-dire que, malgré un prix d’achat inférieur, ils risquent de coûter globalement plus cher sur le long terme.

AMD avance que la plus grande quantité de mémoire embarquée dans ses GPU doit permettre d’acheter moins de GPU pour exécuter rapidement des tâches d’IA générative. En fait, plus les algorithmes d’inférence peuvent charger de paramètres en mémoire, plus ils vont vite. Toujours selon AMD, une IA générative basée sur le LLM Llama-3.1 70B produirait des résultats 1,2 fois plus rapidement avec un MI325X qu’avec un H200. Et 1,4 fois plus rapidement si on utilise le LLM Mixtral 8x7B.

Toutefois, cet avantage est à relativiser. Du fait de leur prix très élevé et de leur consommation d’énergie indécente, les GPU haut de gamme de Nvidia et d’AMD paraissent de moins en moins opportuns aux entreprises qui souhaitent héberger de l’IA générative dans leurs datacenters. À l’échelle de leurs besoins, elles pourraient se contenter de puces bien moins chères, qui n’accélèrent que l’IA générative (et pas l’entraînement des modèles), comme les L40 de Nvidia ou encore la puce de Groq.

Enfin, il est notable que les benchmarks produits par AMD promettent des performances soit similaires, soit 1,2 ou 1,4 fois meilleures que celles du H200. Alors que le MI325X a 1,8 fois plus de mémoire avec 1,25 fois plus de bande passante. Entre les lignes, on comprend que les cœurs CDNA 3 d’AMD sont encore à la peine pour atteindre la puissance de calcul des cœurs Hopper de Nvidia.

En attendant les cœurs CDNA 4 et la connectivité UALink

Ces défauts seraient réglés avec les futurs cœurs CDNA 4, qui seront à la base du prochain GPU haut de gamme d’AMD, le MI355X. Sa sortie est prévue pour la fin du second trimestre 2025.

Alors que le MI325X est encore gravé avec une finesse de 4 nanomètres, son successeur bénéficiera d’une gravure en 3 nm censée le rendre plus économe en énergie. Il sera équipé de 288 Go de mémoire HBM3E, laquelle offrira une bande passante de 8 To/s. AMD résume ce futur GPU en disant qu’il sera 1,5 fois meilleur que l’actuel MI300X.  

Il est probable que Nvidia commercialisera au même moment ses GPU B100 et/ou B200, annoncés en mars.

Dans ses cartons, AMD compte aussi sur les progrès du jeune consortium UALink (Ultra Accelerator Link) qui est censé standardiser une technologie d’interconnexion entre GPU aussi efficace que les réseaux NVLink de Nvidia. Il s’agit en l’occurrence de standardiser au niveau du bus PCIe le protocole Instinct qu’AMD a mis au point pour que ses GPU communiquent entre eux quand ils sont installés sur des sockets.

Standardiser signifie surtout ici que les cartes mères embarqueront des puces de routage réseau UALink. L’enjeu est de faire passer, à terme, les réseaux NVLink de Nvidia pour une technologie propriétaire, plus chère.

Les promoteurs du réseau UALink comprennent, outre AMD, Broadcom, Cisco, Intel, mais aussi HPE, Google, Microsoft et Meta, la maison mère de Facebook.

Pour approfondir sur Processeurs et composants