Nvidia

IA générative : Nvidia étoffe ses offres logicielles et cloud

Outre ses GPU basés sur l’architecture Ada Lovelace, Nvidia tente de développer et de réunir un maximum d’outils censés aider les entreprises à entraîner ou à affiner leurs modèles d’IA générative, depuis le cloud ou sur site.

En marge du salon SIGGRAPH, Nvidia a dévoilé les mises à jour de son portfolio logiciel ainsi que les dates de disponibilité des cartes professionnelles établies sur les puces de la génération Ada Lovelace. Les RTX 4000, 4500 et 5000 (à ne pas confondre avec les cartes RTX A X000, établies sur l’architecture Ampere) devraient être disponibles d’ici à la fin du mois d’octobre.

La carte L40S, dont la commercialisation est prévue cet automne, est une déclinaison musclée de la carte pour data center L40, présentée en septembre dernier. Selon la fiche technique dressée par le concepteur, la Nvidia L40S est dotée de 48 Go de VRAM GDDR6, soit le double de mémoire vive vidéo de la L40. La L40 et la L40S partagent la même vitesse de bande passante de 864 Gbit/s et le même nombre de CUDA cores (18 176). Elles sont animées par la même puce AD102, couplée au même bus mémoire (384 bits).

Cette quantité de mémoire supplémentaire ne permettrait pas d’améliorer grandement les performances au moment de traiter des données encodées au format FP32 (91,6 TFLOPS, contre 90,5 TFLOPS pour la L40), mais pourrait faciliter l’exécution de charge de travail en précision mixte (362 TFLOPS contre 733 TFLOPS au format FP16 pour la L40S, selon Nvidia). Ce sont, à peu de choses près, les caractéristiques de la RTX 6000 sans son refroidissement actif et sa bande passante mémoire (960 Gbit/s), plus performante sur le papier.

Si les modèles 3D sont de plus en plus gourmands en ressource, il en va de même pour les modèles d’IA. D’ailleurs, la L40S est présentée comme une carte dédiée à l’IA générative.

Nvidia AI Enterprise 4.0 débarque sous le signe de l’IA générative

En ce sens, le concepteur fabless a présenté Nvidia AI Enterprise 4,0, la mise à jour de sa plateforme logicielle rassemblant un ensemble d’outils consacré au deep learning et à l’orchestration des charges de travail d’AI. Jusqu’alors, Nvidia fournissait des outils d’entraînement et d’inférence des réseaux de neurones, comme TensorFlow, PyTorch et son propre framework d’inférence, Triton.

Avec cette quatrième version, Nvidia ajoute la prise en charge de son framework NeMo. Pour rappel, il le proposait déjà dans Nvidia AI Foundations, la version managée d’AI Enterprise sur DGX Cloud.

Il y implémente plusieurs grands modèles de langage (LLM) open source, dont Falcon et LLama-2, la deuxième génération du célèbre modèle de Meta (Facebook), en complément de son propre modèle NeMo GPT.

Le framework NeMo contenait déjà une collection de modèles de synthèse vocale, de text-to-speech et de reconnaissance automatique du langage parlé ou écrit.

Récemment, Nvidia a présenté NeMo Guardrails, une boîte à outils pour filtrer les résultats des modèles d’IA générative. L’entreprise a donc les technologies nécessaires pour effectuer l’entraînement distribué des modèles LLM, réaliser leur personnalisation, leur inférence et leur contrôle ; mais il lui manquait un pipeline consacré à la curation de données. C’est ce manque que doit combler NeMo Data Curator.

Combinant les librairies OpenMPI, Dask et un cluster de la base de données NoSQL Redis, Data Curator est présenté comme une suite de modules Python permettant d’orchestrer diverses charges de travail comme le téléchargement de données, l’extraction de textes, leur nettoyage, leur filtrage et leur déduplication. De telles fonctionnalités sont nécessaires pour l’entraînement des modèles LLM.

Contrairement aux autres outils de Nvidia AI Enterprise, Data Curator repose sur le traitement massivement parallèle des données, en s’appuyant sur des clusters CPU. Les ingénieurs de Nvidia affirment que la suite permet de distribuer des charges de travail sur des milliers de CPU. Un des modèles LLM accessibles depuis le framework NeMo a été entraîné à l’aide de ce pipeline. Les ingénieurs ont traité 8,7 To de données textuelles sur un cluster réunissant 6 000 CPU pour élaguer un jeu de données d’entraînement de 2 billions de tokens, réduit à 1,1 billion de tokens.

Pour autant, la recherche en matière d’IA générative est tellement florissante que Nvidia ne peut pas embarquer tous les outils et modèles utiles pour ses clients.

Pour promouvoir DGX Cloud, Nvidia se rapproche d’HuggingFace

Dans ce contexte, Nvidia annonce un partenariat avec HuggingFace afin d’entraîner, affiner (puis, dans un avenir proche, inférer) les modèles LLMs présents sur la plateforme ouverte sur DGX Cloud, son offre multicloud et hybride.

DGX Cloud est entré en disponibilité générale le 25 juillet dernier sur Oracle Cloud Infrastructure, Google Cloud et Azure, « aux États-Unis et au Royaume-Uni ». Il s’agit de fournir des instances dédiées pour l’exécution de charge GPU, dont l’entraînement des modèles d’IA générative, et les outils permettant de superviser les clusters.

Plus spécifiquement, HuggingFace lancera « dans les prochains mois » un service nommé Training Cluster as a Service. Il permettra de réaliser l’entraînement des modèles sur les instances dédiées de DGX Cloud. HuggingFace est à la fois une manne pour les entreprises, les instituts de recherche et Nvidia : plus de 250 000 modèles et 50 000 jeux de données sont partagés sur la plateforme de la startup franco-américaine qui serait utilisée par 15 000 organisations.

Les GPU du concepteur américain sont d’ores et déjà exploités par un bon nombre de laboratoires de recherche. Convaincre les grands groupes d’industrialiser des modèles d’IA générative privés entraînés sur leurs données serait un moyen pour Nvidia de pérenniser son activité commerciale dans ce domaine, dont « la trajectoire à long terme reste inconnue », dixit son bilan financier du premier trimestre fiscal 2024.

« Nous avons packagé un bon nombre de logiciels nécessaires au raffinement des modèles d’IA générative », assure Manuvir Das, vice-président, informatique d’entreprise chez Nvidia. « HuggingFace permet de trouver les modèles mis à disposition par la communauté open source, tandis que notre plateforme est idéale pour gérer ces charges de travail », justifie-t-il.

S’il semble plus naturel d’entraîner les modèles à l’aide des infrastructures cloud, Nvidia se préoccupe peu du lieu d’inférence, tant que ses GPU sont de la partie.

Workbench AI : Nvidia veut favoriser la portabilité des modèles LLM

« Ce que nous croyons chez Nvidia, c’est qu’une fois que vous avez accès à un modèle, vous pouvez le mettre dans une “valise” et le placer où vous voulez. Tout ce dont vous avez besoin, c’est l’environnement d’exécution Nvidia », déclare Manuvir Das.

En l’occurrence, les appels API vers des modèles d’IA générative ou leur inférence depuis des instances cloud peuvent à la longue coûter cher. Comme les entreprises préfèrent – pour le moment – réaliser des tests, une station de travail suffit pour affiner les LLM ou les exécuter.

En ce sens, l’éditeur a présenté en préversion de Nvidia Workbench AI, un kit d’outils conteneurisés sur Windows ou Linux, sur un ordinateur, une station de travail, un data center ou dans le cloud. Les usagers peuvent accéder aux outils via des notebooks Jupyter ou VSCode. Là encore, AI Workbench peut être connecté à HuggingFace, GitHub et Nvidia NGC, un portail référençant des outils de l’éditeur et de ses partenaires.

« D’un seul clic, vous pouvez migrer un projet d’un environnement d’exécution à un autre », promet Jensen Huang, PDG de Nvidia, lors d’un keynote en marge du salon SIGGRAPH.

Workbench AI reprend en grande partie les outils présents dans le framework NeMo. Lors de sa démonstration, l’éditeur a vanté la possibilité d’affiner des modèles Stable Diffusion ou LLaMa 2 depuis un ordinateur portable équipé d’une RTX 4090. Mais au lieu d’utiliser uniquement la puissance de calcul local, dans cet exemple, Workbench AI est connecté à un cluster on-premise – doté de huit GPU Nivida L40S et contrôlé par un hyperviseur VMware (384 Go de VRAM) – à des instances AWS g5 x12 Large (96 Go de VRAM au total) ou à une station de travail distante équipée de quatre RTX 6000 (192 Go de VRAM) afin d’affiner les modèles.

Un regain d’intérêt pour les stations de travail

De la sorte, Nvidia entend promouvoir les produits de ses partenaires Dell, HP, Lenovo et Box avec qui ils imaginent des modèles de stations de travail équipés de ces quatre GPU RTX 6000 et d’un SmartNIC Mellanox ConnectX-6 (doté de deux ports Ethernet capables de supporter chacun une bande passante de 200 Gbit/s). Ces produits seront disponibles à la fin de l’année et seront possiblement vendus avec les logiciels Nvidia AI Enterprise et Omniverse « à prix réduit ».

« Quand vous combinez quatre GPU dotés de 48 Go de VRAM chacun, il est tout à fait possible d’entraîner des modèles d’intelligence artificielle localement. »
Bob PetteVice-président et directeur général Enterprise Visualization, Nvidia.

« Nous observons une sorte de renaissance des stations de travail », observe Bob Pette, vice-président et directeur général Enterprise Visualization, chez Nvidia.

Ce rebond est récent. La division Professionnal Visualization de Nvidia a vu ses revenus passer de 220 millions de dollars au quatrième trimestre fiscal 2023, à 295 millions de dollars au 1ᵉʳ trimestre fiscal 2024, soit une hausse de 34 %, mais en baisse de 53 % sur un an.

« Quand vous combinez quatre GPU dotés de 48 Go de VRAM chacun, il est tout à fait possible d’entraîner des modèles d’intelligence artificielle localement », ajoute-t-il.

« Vous aurez sûrement besoin d’utiliser un HPC pendant plusieurs jours pour entraîner un LLM avec des centaines de milliards de paramètres. Mais pour le fine-tuning, une workstation de ce type est largement suffisante ».

« C’est pour cette raison que les fabricants OEM sont en train de développer des châssis capables de prendre en charge quatre GPU RTX », poursuit-il.

En attendant de convaincre les entreprises, Nvidia se concentre sur le cœur de son activité : l’équipement des data centers. Selon Colette Kress, directrice financière de Nvidia, la croissance du chiffre d’affaires de sa division data center (une hausse de 14 % entre le Q1 2 024 et le Q1 2023) trouve son origine dans l’effervescence autour de l’IA générative. « Cette demande émane à la fois des sociétés grand public œuvrant sur l’Internet, les fournisseurs cloud, ainsi que des entreprises et des startups spécialisées dans l’IA », écrit la directrice financière. Le groupe a d’ailleurs dévoilé la disponibilité prochaine de sa puce GH200 au sein des systèmes DGX au deuxième trimestre 2024.

Dans cette phase de transition entre deux générations de produits, Nvidia a vu son chiffre d’affaires baisser de 13 % (de 8,28 milliards à 7,19 milliards de dollars), mais ses bénéfices nets sont en hausse de 26,27 % (2,04 milliards de dollars, contre 1,61 milliard au Q1 2023).

Pour approfondir sur Intelligence Artificielle et Data Science