Alexander - stock.adobe.com

NIM : Nvidia adapte ses microservices à l’IA agentique

Le spécialiste des GPU a présenté lors du Consumer Electronics Show 2025 des partenariats et des modèles LLM pour couvrir les cas d’usage liés à l’IA agentique. Il fait surtout un effort pour compresser ses LLM afin de les déployer sur des puces plus abordables.

Au milieu des annonces consacrées au grand public, Nvidia a présenté plusieurs solutions pour les entreprises lors du CES de Las Vegas. Les plus généralistes de ces annonces concernent, sans surprise, les microservices NIM.

Des flux de travail et des LLM pour l’IA agentique

Il s’agit pour le géant des GPU de convertir son offre à l’IA agentique. En septembre, Nvidia avait présenté les blueprints, un catalogue de flux de travail précâblés pour exécuter différentes charges de travail liées à l’IA générative. Il étoffe son offre en lançant cinq blueprints pour l’IA agentique concoctés par des partenaires.

Ces partenaires sont bien connus des habitués de la GenAI. Il s’agit de CrewAI, Daily, LangChain, LlamaIndex et Weights & Biases.

Le blueprint de LangChain permet de déployer un agent capable de générer des rapports structurés en s’appuyant sur LangGraph et le modèle Llama 3.3 70B. LlamaIndex a concocté de son côté un agent ciblant les chercheurs : il permet d’écrire des blogs de recherche en exploitant le même LLM. Weights & Biases, lui, a concocté un flux de travail/agent pour assurer la traçabilité des projets d’IA générative. CrewAI a mis au point un agent consacré à la documentation du code, tandis que Daily exploite le framework PipeCat et les modèles de speech to text/text-to-speech Nvidia Riva et Llama 3.3 70B, afin de créer des agents vocaux pouvant s’intégrer avec des systèmes compatibles avec WebRTC.

De manière plus anecdotique, Nvidia propose un blueprint afin de proposer une solution concurrente à la capacité de résumé vocal de PDF de NotebookLM.

Si ces solutions ont pour moteur les LLM de Meta (en sus du partenariat avec Mistral AI), Nvidia poursuit l’entraînement de ses propres variantes. Il a annoncé la famille de modèles LLama Nemotron.

Ces ersatz simplifiés et distillés de Llama 3.1 pour les tâches agentiques ont surtout été optimisés pour différents GPU. Llama Nemotron Ultra s’exécute sur des GPU de data centers, la variante Super n’a besoin que d’une carte accélératrice, alors que Llama Nemotron Nano peut fonctionner sur des ordinateurs équipés d’un GPU RTX. Évidemment, Nvidia a fait l’effort de l’adapter aux RTX de la série 50 annoncés pendant le CES. Ces cartes prennent en charge l’encodage FP4, ce qui est idéal pour exécuter des SLM et des LLM compressés. Pour information, la RTX 5090 Founder’s Edition est vendu 2 348 euros TTC, dispose de 32 Go de VRAM et consomme 575 watts en charge (contre 48 Go de VRAM et environ 6 000 euros pour la carte professionnelle RTXA6000 et son TDP de 300 watts).

La collection inclut également LLama Nemotron Retrieval, un modèle de reranking, et le modèle de récompense Reward, basé sur Llama 3.1 70B.

Le géant fabless a aussi dévoilé les Cosmos Nemotron, des modèles de langage-vision (Vision Language model) consacrés à la recherche d’informations dans des images et vidéos et la production de résumé de ces contenus. Ils sont dotés de 8 ou de 15 milliards de paramètres.

Nvidia avait déjà développé tout un champ de techniques lors de l’entraînement des modèles Minitron. Il les réutilise dans le cas présent. L’éditeur a développé la méthodologie Neural Architecture Search. Il utilise un framework professeur-élève, une technique de distillation de connaissances pour entraîner des blocs de réseau de neurones à action directe (Feed forward neural network), tout en supprimant les briques jugées inutiles. Nvidia met par ailleurs à disposition un kit d’outils consacré à l’alignement des modèles, nommé NeMo-Aligner. Elle inclut des algorithmes d’apprentissage par renforcement avec retour humain, d’optimisation directe des préférences et SteerLM, un modèle de récompense.  

SAP et ServiceNow, premiers usagers des modèles Nemotron

Sur le papier, il n’est pas évident que les entreprises exploitent directement ces modèles. D’autant que les NIM représentent un surcoût d’environ 5 à 7 % en sus de l’achat ou de l’usage des GPU Nvidia. En revanche, selon l’éditeur, des acteurs comme ServiceNow et SAP sont les premiers utilisateurs de ces LLM Nemotron.

« Grâce à Joule de SAP, des centaines de millions d’utilisateurs interagiront avec ces agents pour atteindre leurs objectifs plus rapidement que jamais », vante Philipp Herzig, chief AI officer chez SAP, dans un communiqué de presse. « La nouvelle famille de modèles ouverts Llama Nemotron de NVIDIA favorisera le développement de plusieurs agents d’IA spécialisés pour transformer les processus d’entreprise ».

Jeremy Barnes, vice-président de la plateforme IA chez ServiceNow n’en dit pas plus.

De fait, ces modèles Nemotron ne sont pas encore accessibles. « Les modèles Llama et Cosmos Nemotron seront bientôt disponibles via des API hébergées sur build.nvidia.com et en téléchargement, ainsi que sur HuggingFace », avance le groupe dirigé par Jensen Huang. Ces modèles sous licence communautaire (dérivée de la licence propriétaire permissive de Meta) seront accessibles gratuitement. Ils sont inclus dans la plateforme Nvidia AI Enterprise, déployable sur site ou dans le cloud.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM