Dossier puces pour l’IA : les alternatives à Nvidia

Introduction

LeMagIT a déjà consacré un guide à l’écosystème des infrastructures autour des solutions de Nvidia. Pour autant, il existe des alternatives à ses GPU à 40 000 dollars l’unité afin d’équiper les entreprises avec suffisamment de moyens techniques dans le but d’exécuter leurs traitements d’IA. Le concurrent le plus visible de Nvidia sur la fourniture des GPU est AMD. Après avoir lancé l’année dernière son MI300X, le fournisseur revient à la charge cette année avec un MI325X toujours deux fois moins cher que les H100 et H200 de Nvidia.

Moins visible, mais tout autant pressé de peser dans ce domaine, Intel a désormais lui aussi un GPU, le Gaudi3. Même si celui-ci ne semble pas atteindre, sur le papier, les mêmes performances que les puces de Nvidia, le mérite de l’approche d’Intel est qu’elle est liée à un kit de développement Open source. Il permet aux entreprises de mettre au point leurs chatbots d’IA générative sans devoir investir dans la suite logicielle de Nvidia. AMD, de son côté, s’efforce de développer ses propres logiciels, mais il est probable qu’il se range à l’initiative d’Intel.

Tous ces GPUs sont capables d’exécuter les tâches les plus demandeuses en performances dans le domaine de l’IA : l’entraînement des modèles. Mais la plupart des entreprises se contenteront surtout de faire de l’inférence, c’est-à-dire utiliser des modèles préentraînés pour leur soumettre leurs propres données et requêtes. Dans ce cas, il sera sans doute bien plus rentable d’investir dans des puces accélératrices d’un tout autre genre. Groq, Cerebras, Azure, Broadcom ou encore le Chinois XianShan ont des solutions pour accélérer l’IA générative sans dépenser des millions d’euros.

Cela dit, a-t-on réellement besoin de GPU pour faire de l’IA générative ? Les fabricants de processeurs répondent en chœur que non. Les derniers Xeon 6P d’Intel et Epyc 9005 de Nvidia ont été conçus pour accomplir ces tâches depuis des serveurs traditionnels. Tout comme les processeurs ARM qu’Ampere vend de plus en plus aux hébergeurs. Entre ces processeurs surpuissants ou des processeurs de génération précédente accompagnés de petits GPUs ou d’accélérateurs en carte PCIe, tout sera finalement une question de rentabilité énergétique. Les entreprises sont invitées à sortir leurs calculatrices pour évaluer la configuration qui, dans leurs datacenters, contribuera à limiter le mieux les dépenses en électricité.

Enfin, une compréhension de l’offre des semiconducteurs pour l’IA ne serait pas complète sans évoquer la question des mémoires HBM. Ces mémoires intégrées aux GPU et aux processeurs sont la raison pour laquelle toutes ces puces sont meilleures dans le calcul plus rapide des algorithmes de l’IA. Elles sont aussi la raison de leurs prix élevés. Ce dossier fait donc également un point sur le poids de ces mémoires dans l’actuelle économie de l’IA pour expliquer combien leur avenir, incertain, pérennisera ou non les actuels investissements des entreprises. D’autant qu’il existe déjà des moyens de s’en passer.

1GPU-

Des solutions existent pour dépenser moins de millions

Actualités

Puces pour l’IA : AMD officialise son GPU MI325X

Le nouveau GPU d’AMD est censé rivaliser avec le H200 de Nvidia. Ses caractéristiques supérieures sur le papier lui permettent d’atteindre des performances somme toute similaires. Reste à connaître son prix. Lire la suite

Actualités

Intel dévoile Gaudi3, sa réponse aux GPU de Nvidia

Le nouveau GPU d’Intel serait plus rapide et plus économique que l’actuelle puce H100 du leader du marché. Gaudi3 aura aussi le mérite d’être disponible en quantité dès cet été. Lire la suite

Actualités

IA : Groq lance une puce accélératrice pour l’inférence

En se spécialisant dans l’accélération des grands modèles de langages au moment de leur exécution plutôt qu’au moment de leur entraînement, la puce LPU de la startup serait dix fois plus rentable qu’un GPU. Lire la suite

Actualités

Cerebras Systems présente la 3e version de sa puce géante

La startup californienne vient de détailler son processeur WSE-3 aussi gros qu’un wafer lors de la conférence Hot Chips 2024. Sa supériorité par rapport à un Nvidia H100 dans les calculs d’IA n’est pas évidente. Lire la suite

Actualités

Hot Chips 2024 : de l’accélération pour l’IA, le réseau et les applications

Après les fabricants historiques de processeurs, c’est au tour de l’hyperscaler Azure, du fabricant de contrôleurs Broadcom et d’un laboratoire de recherche universitaire chinois de présenter cette semaine les puces qui accéléreront demain les datacenters. Lire la suite

2Processeurs-

Se contenter de serveurs traditionnels, mais plus chers en énergie

Actualités

Processeurs : Intel livre son nouveau Xeon 6P aux entreprises

Après avoir fourni les versions 6E – économes en énergie – aux hyperscalers l’été dernier, le fondeur propose aux fabricants de serveurs un nouveau Xeon, avec deux fois plus de cœurs, deux fois plus performant et aussi deux fois plus cher. Lire la suite

Actualités

Processeurs : AMD répond au Xeon 6P avec l’Epyc 9005

Le nouveau processeur d’AMD pour serveurs se décline en une trentaine de modèles, dont un en 128 cœurs qui coûte deux fois moins cher que la puce d’Intel en 128 cœurs et un autre en 64 cœurs qui serait de puissance similaire. Lire la suite

Actualités

Ampere : « nous vendons des performances par rack et non par watt »

Dans cette interview, le fabricant de processeurs ARM pour serveurs, qui lancera bientôt des modèles en 256 et 512 cœurs, explique que les performances dont se targuent ses concurrents sont un faux-nez au regard de l’efficacité énergétique. Lire la suite

Actualités

Processeurs : le Rhea sera disponible en 2025

SiPearl, le concepteur du processeur 100 % européen pour supercalculateurs, annonce que la production de sa puce sera lancée d’ici à quelques semaines. On la trouvera dans Jupiter, mais aussi dans des serveurs d’entreprise pour l’inférence. Lire la suite

Actualités

Hot Chips 2024 : IBM présente en avant-première le mainframe z17

La prochaine génération de mainframes IBM disposera d’un processeur Telum II 20 % plus rapide, 70 % plus économe sur les transactions et d’une multitude d’accélérateurs Spyre pour l’IA. Lire la suite

Actualités

Hot Chips 2024 : Intel dévoile des puces axées sur le haut débit

À l’occasion du salon qui se tient cette semaine à l’université de Stanford, Intel a présenté un Xeon 6-D conçu pour router très rapidement les données de l’IA et un chip OCI capable de les transférer à pleine vitesse jusqu’à l’autre bout d’un datacenter. Lire la suite

3HBM-

La mémoire magique qui rend les semiconducteurs meilleurs pour l’IA

Actualités

Le marché des puces pour l’IA sera multiplié par 10 d’ici à 2033

Un cabinet d’analystes estime que le marché mondial des puces accélératrices pour l’IA atteindra 300 milliards de dollars en 2033, contre 30 aujourd’hui. Simultanément, Apple annonce se lancer dans cette activité. Lire la suite

Actualités

Semiconducteurs : SK Hynix assemblera ses mémoires HBM aux USA

L’industriel coréen a accepté de déplacer ses usines d’assemblage de cette mémoire, critique pour la puissance de calcul en IA, sur le sol américain. Les experts parlent d’un premier épisode dans une nouvelle guerre froide de l’IA. Lire la suite

Actualités

IA : les analystes prédisent l’éclatement de la bulle des mémoires HBM

Alors que les rapports prédisent tous que ce composant, ingrédient essentiel dans l’entraînement des IA, rendra plus riches que jamais les fabricants de mémoire en 2025, ils alertent aussi sur son succès éphémère. Lire la suite

Actualités

Semiconducteurs : la mémoire HBM4 disponible plus tôt que prévu

La prochaine évolution de cette mémoire essentielle dans les performances de l’IA sera normalisée dès la rentrée prochaine. Les produits pourraient arriver avec une année d’avance sur le marché. Lire la suite

Actualités

Semiconducteurs : ZeroPoint planche sur un accélérateur de RAM

La startup suédoise a mis au point un design de circuit qui compresse les données au sortir du processeur – sans ralentir le flux – afin de réduire les temps de communication avec la mémoire et même virtuellement doubler, voire quadrupler, sa capacité. Lire la suite