Processeurs : Ampere dévoile 256 cœurs et abolit les GPU pour l’inférence
Le fabricant des processeurs ARM pour hyperscalers noue des partenariats pour proposer des serveurs clé en main aux entreprises, annonce une nouvelle version 40 % meilleure que les x86 et fournit des kits pour faire de l’IA générative sans GPU.
Opération communication pour Ampere. Le fabricant de processeurs ARM pour serveurs annonce qu’une version 256 cœurs de sa puce Ampere One arrivera d’ici à la fin de l’année. Celle-ci aura pour principal intérêt de délivrer, en moyenne, 40 % de puissance de calcul en plus par rapport aux processeurs x86 Intel Xeon et AMD Epyc qui consommeront autant d’électricité qu’elle.
Le point intéressant de ce nouveau processeur est que sa finesse de gravure en 3 nm lui permettra de ne pas consommer plus d’énergie que l’actuel Ampere One de 192 cœurs, gravé en 5 nm. Pour mémoire, les cœurs de l’Ampere One sont des ARM 64 bits équipés chacun de 2 Mo de cache et deux circuits de calculs vectoriels 128 bits, notamment capables de traiter les opérations en Int8, Int16, fréquentes en IA. Dévoilé en fin d’année dernière, l’Ampere One à 192 cœurs a été livré en début d’année.
Plus besoin de GPU pour l’inférence
Mais il y a mieux : Ampere s’est engagé dans le développement d’outils d’optimisation des codes d’inférence pour ses puces. En substance, il s’agit de promettre aux entreprises qui déploient des serveurs basés sur ses processeurs qu’elles n’auront plus besoin d’équiper leurs machines de GPUs.
« Un serveur équipé d’un processeur x86 et d’un GPU Nvidia A10 génère 30 tokens par seconde et consomme 420 wattheures. Notre Ampere Altra Max 128 cœurs, sans aucun GPU, génère aussi 30 tokens par seconde, mais pour une consommation de seulement 140 wattheures », lance Jeff Wittich, directeur produit d’Ampere, lors d’une récente présentation en ligne.
Jeff WittichDirecteur produit d’Ampere
L’Ampere Altra Max est la version qui a précédé l’Ampere One. Le fabricant suggère que les Ampere One en 192, puis 256 cœurs seront largement plus performants pour l’inférence que les GPU d’appoint que Nvidia dédie à de telles tâches.
« Ce que cela signifie, dans l’immédiat, c’est que vous pouvez déployer des infrastructures d’IA dans vos datacenters actuels, ceux qui refroidissent encore les serveurs avec des ventilateurs. Vous n’avez pas à attendre des années que des datacenters compatibles avec le refroidissement liquide soient construits. », explique le directeur produit d’Ampere.
« Sur le long terme, miser sur nos processeurs est la garantie de limiter la croissance de votre facture électrique », ajoute-t-il.
« Jusque-là, nous n’utilisions les processeurs ARM d’Ampere que pour exécuter des applicatifs web et des bases de données. Depuis l’arrivée des nouveaux kits de développement, nous avons testé des applications d’inférence sur les LLM ORCA, Llama-3 et Mistral. Force est de constater que, pour des performances similaires, le calcul nous coûte 80 % moins cher », témoigne Karan Batta, le directeur adjoint d’Oracle OCI, l’un des clouds publics qui ont adopté les puces d’Ampere pour motoriser ses services en ligne.
Parmi les autres clouds publics que l’on trouve dans la clientèle d’Ampere, citons le Français Scaleway et Google GCP, bien que celui-ci ait annoncé travailler au développement de son propre processeur ARM. Ampere revendique équiper une vingtaine de fournisseurs de cloud privés dans le monde, lesquels proposent une cinquantaine de plateformes virtuelles basées sur son architecture.
Bientôt des serveurs à base d’Ampere pour les entreprises
Pour passer d’architectures uniquement disponibles en cloud à des serveurs achetables par les entreprises pour localiser leurs applicatifs d’IA, Ampere vient de nouer des partenariats avec des fabricants de matériels, dans le but de mettre sur le marché des appliances.
Supermicro, qui assemble la plupart des serveurs en marque blanche du marché, devrait ainsi proposer d’ici à la rentrée toute une collection de configurations avec plus ou moins de processeurs, de RAM et de SSD.
« Nous n’avons pas fait qu’optimiser les modules habituels des applications d’inférence (Tensorflow, PyTorch, ONNX). Nous avons aussi contribué aux codes des noyaux des systèmes d’exploitation Open source et aux compilateurs pour que les applications traditionnelles soient optimisées sur notre architecture », assure Jeff Wittich.
Outre Supermicro, Ampere a déjà conclu au moins deux autres partenariats : l’un avec Qualcomm, l’autre avec Quadra. Concernant le premier, il s’agit de proposer des machines dotées d’un processeur AmpereOne et d’un coprocesseur AI100 Ultra. Ce dernier est une sorte de nouvelle version serveur de la puce accélératrice d’IA que Qualcomm propose depuis plusieurs années aux fabricants de smartphones, notamment pour reconnaître automatiquement les éléments présents sur une photo ou une vidéo (personnages, décors…).
Selon la compréhension du MagIT, il s’agirait de proposer des serveurs de vidéosurveillance capables de générer à la volée des descriptifs des images filmées.
L’autre partenariat consiste à proposer une appliance pour le monde de la vidéo, Quadra ayant mis au point une puce accélératrice d’encodage vidéo, le Quadra T1U. Cette solution serait capable de convertir en temps réel 360 flux vidéos et de générer automatiquement des sous-titres pour 40 d’entre eux dans une « multitude » de langues. Ici, le modèle utilisé est Whisper d’OpenAI, dans une version optimisée pour les processeurs Ampere.
Des machines pour l’IA et les applications traditionnelles
Enfin, Jeff Wittich argumente que les entreprises feraient mieux d’investir dans des infrastructures qui servent à la fois à calculer l’inférence et à exécuter des applications traditionnelles – ce que font les processeurs Ampere, donc – plutôt que déployer, d’une part, des supercalculateurs d’IA bons à tout faire, et d’autre part, des clusters de serveurs basiques pour les applications.
Jeff WittichDirecteur produit d’Ampere
« Honnêtement, nous n’allons pas prétendre que nous saurions remplacer les GPU H100 de Nvidia qui servent à entraîner des modèles d’IA. L’entraînement n’est pas le domaine de nos processeurs. En revanche, nous disons aux entreprises qu’elles auraient tort d’acheter des infrastructures d’entraînement en nourrissant l’espoir qu’elles pourraient les rentabiliser en leur faisant exécuter de l’inférence entre deux entraînements », dit le directeur des produits chez Ampere.
« Un serveur DGX, c’est une machine qui consomme 10,2 kilowattheures et qui coûte un demi-million de dollars. Elle n’est pas faite pour l’inférence. Lorsque vous lui demandez d’exécuter Whisper, par exemple, vous obtenez des performances qui correspondent à seulement 20 % des performances de nos processeurs Ampere, lesquels coûtent et consomment infiniment moins. »
« Mais surtout, une fois les calculs terminés, votre serveur DGX ne sert plus à rien. Alors que les serveurs à base de puce Ampere continuent de fonctionner pour exécuter des bases de données ou des applications web », argumente Jeff Wittich, en suggérant que l’entraînement de LLM devrait rester le seul domaine des prestataires de services de supercalcul.
Selon lui, l’entraînement des modèles correspondrait à 15 % de la puissance de calcul actuellement utilisée en IA, tandis que l’inférence – plus légère, mais pratiquée par bien plus d’entreprises – mobiliserait le reste.