Avec Digits, Nvidia met ses supercalculateurs sur le bureau
Le constructeur présente une machine de bureau contenant une version miniature de l’architecture Grace-Blackwell qui équipera cette année les serveurs d’IA. Elle exécute localement des IA et se présente comme une station pour développeurs.
Un supercalculateur dans un format NUC ou Mac Mini. Voilà à peu près comment l’on pourrait définir le nouveau projet Digits que Nvidia a dévoilé cette semaine à Las Vegas. La petite machine, dont le design doré n’est pas définitif, embarque un processeur ARM Grace, un GPU Blackwell, jusqu’à 128 Go de RAM partagés (« unifiés ») entre les deux, un SSD NVMe de 4 To et un Linux personnalisé appelé DGX OS.
Le constructeur parle d’un tarif à 3 000 dollars, de la possibilité d’exécuter localement des LLM avec 200 milliards de paramètres et d’une mise sur le marché en mai prochain.
Exécuter localement des modèles d’IA présente plusieurs avantages, à commencer par le fait de ne pas payer un service en ligne à chaque fois que l’on soumet un prompt. Ou, pour beaucoup plus cher, quand une entreprise recalcule la personnalisation d’un modèle à partir des usages et des données qui lui sont spécifiques. Un autre point intéressant est de ne pas faire sortir des murs d’une entreprise les données sensibles que l’on soumet à une IA.
Dell, Lenovo ou encore HPE proposent ainsi des configurations serveur qui permettent d’utiliser l’IA localement, à des tarifs qui dépassent souvent les 100 000 euros.
Sur ce principe, le format d’une machine de bureau limite cependant l’IA à un seul utilisateur. S’il reste possible d’exposer l’IA sur le réseau via un service accessible à d’autres collaborateurs ou à des applications tierces, les capacités restreintes de la machine empêchent en pratique de multiplier les connexions simultanées. Nvidia présente sa machine Digits comme une station personnelle pour les développeurs, et promeut l’idée que les applications créées dessus ont vocation à être utilisées sur des serveurs ou en cloud.
Nvidia n’est pas le premier à rendre possible l’exécution de modèles d’IA sur une machine de bureau. Des outils, souvent Open source, permettent déjà de le faire sur des PC richement équipés en GPU, ou (cela semble être le choix le plus populaire) sur des Mac équipés de processeurs Silicon avec GPU intégrés.
L’avantage d’une solution packagée avec des outils professionnels
Comparativement, un Mac Studio de prix similaire, avec une architecture matérielle équivalente, mais deux fois moins de RAM unifiée, exécute plutôt lui-même des LLM Open source de 13 milliards de paramètres, voire moins. Et il le fait via des outils communautaires, gratuits, comme LM Studio ou Ollama qui, pour l’heure, sont trop complexes ou trop limités sur une utilisation en entreprise.
Ce détail est important, car la petite machine de Nvidia utilisera, elle, tous les logiciels professionnels que Nvidia commercialise dans son catalogue AI Enterprise. On ignore à ce stade de combien la souscription à ces logiciels augmentera le coût de la machine. Nvidia laisse en tout cas entendre qu’une offre « développeur » permettrait de les utiliser gratuitement dans des limites de taille ou d’exploitation.
Ces outils sont notamment les microservices NIM qui correspondent à des chatbots, des fonctions de RAG et des LLM prêts à être utilisés. On trouve aussi les modules NeMo pour personnaliser (fine-tuning) et entraîner des modèles. Il est aussi question de donner accès à des applications et des agents IA prêts à être personnalisés, dans la collection Blueprints. Bien entendu, l’ensemble des kits de développement de Nvidia (impeccablement packagés avec les bonnes bibliothèques de fonctions et les bons environnements d’édition de code) doit être fourni par défaut.
Les outils communautaires sur Mac ou PC sont bien plus sommaires. LM Studio et Ollama, par exemple, sont censés permettre l’injection de documents personnels pour nourrir la réflexion d’une IA (principe du RAG). Mais dans les faits, ces fonctionnalités ne sont pas encore opérationnelles. On ignore ainsi quand un clic sur l’icône du trombone dans LM Studio arrêtera de produire systématiquement un message d’erreur. Pour faire du RAG avec ces outils, il faut passer par un autre outil communautaire, AnythingLLM, qui convertit en amont les documents personnels en base de données vectorielles, puis injecte ces vecteurs lors des prompts. Une vraie usine à gaz.
Peu de détails techniques
Les détails techniques de la machine que Nvidia partage sont sommaires. Le constructeur a l’habitude d’annoncer très en avance des produits qui, in fine, ne correspondent plus exactement aux caractéristiques initialement comprises par le public. On pense notamment à la puce GPU Blackwell B200 dévoilée en mars 2024, qui devrait être mise sur le marché un peu avant cet été, mais a priori plutôt dans une version B100 comprenant deux fois moins de cœurs de calcul.
Ici, il est probable qu’il existe plusieurs configurations de cette machine DIGITS et que le modèle à seulement 3 000 $ ne permette pas d’exécuter des LLM plus importants que ceux qu’un Mac exécute à ce prix. LeMagIT émet l’hypothèse que la version à 128 Go de RAM y parviendra, mais qu’elle coûtera beaucoup plus cher. Chez Apple, un tel Mac, dans la gamme Studio, coûte le double.
La puce centrale GB10 du Digits correspond à un processeur Grace et un GPU Blackwell montés sur le même chiplet. Il s’agira de toute évidence d’une version très réduite du futur composé GB200 pour serveurs de calcul, lequel comprendra un processeur Grace avec deux GPU Blackwell (B100 ou B200, le mystère reste entier).
À date, les seules machines qui disposent déjà d’un tel assemblage sont les lames de supercalcul Cray EX254n de HPE. Elles disposent d’un composé GH200, qui comprend un processeur Grace et deux GPU H100, soit de la génération Hopper antérieure à Blackwell. L’intérêt de mettre processeur et GPU sur le même chiplet est qu’ils communiquent, dans le cas du GH200, sept fois plus rapidement que s’ils étaient séparés par un bus PCIe. Le bus entre les puces de Nvidia s’appelle NVLink-C2C.
Dans les serveurs, un processeur Grace comprend 72 cœurs ARM Neoverse V2. Dans la machine de bureau, le Grace n’aura plus que 20 de ces cœurs. Les Neoverse V2 sont les cœurs que l’on retrouve dans les dernières générations de processeurs ARM mis au point par les hyperscalers et par Ampere pour proposer une alternative moins énergivore, mais tout aussi puissante aux puces x86 d’Intel et d’AMD.
Un point intéressant est que ces processeurs intègrent un contrôleur de mémoire LPDDR5X, soit les composants de RAM pour portables, deux fois moins énergivores que les barrettes DDR5 usuelles. Chez Apple, cœurs ARM, cœurs GPU et RAM LPDDR5 sont embarqués dans la même puce. A priori, sur le Digits, la RAM LPDDR5X sera externe au chiplet, c’est-à-dire installée ailleurs sur la carte mère.
Aucune information précise n’indique de quoi sera composé le GPU, a priori appelé B10. Nvidia se contente de dire qu’il aura les mêmes cœurs Cuda et Tensor que les autres GPU Blackwell. Il devrait atteindre 1 Pétaflops de performance en précision FP4, contre 20 Pétaflops pour un B200. Une différence notable sera que ce B10 sera le seul à ne pas intégrer dans ses circuits de mémoire ultrarapide HBM ; il utilisera la RAM LPDRR5X adressée par le processeur Grace.
Enfin, Nvidia argumente qu’il sera possible de mettre deux machines Digits en réseau pour multiplier par deux la puissance de calcul. La machine Digits est équipée d’un DPU ConnectX de Nvidia qui permet de communiquer en RoCE (RDMA over Converged Ethernet) sur un réseau Ethernet d’au moins 10 Gbit/s et jusqu’à 400 Gbit/s. On ne sait pas encore quelle sera la vitesse retenue pour cette machine.