GTC 2024 : « chez Nvidia, nous œuvrons surtout à simplifier l’IA »
Dans cette interview, le directeur des produits d’accélération de Nvidia explique pourquoi il est nécessaire de réentraîner constamment les modèles d’IA, avec quels scénarios économiques et quelles perspectives fonctionnelles.
Où va Nvidia ? Lors de sa conférence annuelle GTC 2024 qui se tient cette semaine à San José, le constructeur a encore dévoilé toute une série d’équipements d’accélération pour l’IA, basés sur la nouvelle architecture Blackwell et les puces réseau NVLink-5. Il a aussi lancé de nouveaux composants logiciels, principalement le catalogue de microservices NIM, qui apporte aux développeurs les briques pour bâtir une application d’IA à partir de modèles et de jeux de données existants.
Mais le marché – auquel Nvidia livre à peine maintenant les produits annoncés il y a dix-huit mois – a-t-il besoin d’avancer encore plus loin ? Une IA qui sait déjà comprendre le français et le parler, qui sait déjà reconnaître des images ou des sons et en générer d’autres, et qui sait se nourrir de données supplémentaires pour actualiser ses résultats, a-t-elle encore besoin qu’on développe des puces pour recommencer son entraînement et le faire plus rapidement que la fois précédente ?
En partant du principe que l’équipement pour entraîner un modèle coûte très cher – donc qu’il peut être réservé à une élite de fournisseurs de services – et qu’il suffit d’avoir entraîné des modèles de langage génériques pour pouvoir ensuite les utiliser sur des serveurs bien moins performants, à quoi cela sert-il de produire encore de nouveaux GPUs surpuissants ?
Et quand bien même tout cela serait nécessaire, Nvidia n’est-il pas juste le leader d’un marché sans concurrents, qui risque la désescalade lorsqu’Intel et AMD finiront enfin par produire des solutions équivalentes ?
Pour répondre à toutes ces questions, LeMagIT est parti interviewer Dave Salvator, le directeur des produits d’accélération chez Nvidia (en photo en haut de cet article).
LeMagIT : Vous lancez un GPU plus puissant pour entraîner plus rapidement des modèles d’IA. Mais y aura-t-il encore à l’avenir des modèles à entraîner ?
Dave Salvator : Il y en aura toujours. Même à l’échelle d’une entreprise, au fur et à mesure que de nouvelles données sont générées par les activités, vous verrez que le modèle entraîné que vous utilisez perd graduellement en efficacité.
Dave SalvatorDirecteur des produits d’accélération, Nvidia
Lorsque vous déployez un modèle qui satisfait vos besoins – qu’il s’agisse d’un modèle préentraîné du marché ou d’un modèle que vous avez entraîné vous-mêmes –, l’efficacité de votre IA générative sera de, disons, 95 %. Puis, votre entreprise générera de nouvelles données sur lesquelles le modèle n’aura pas été entraîné. Vous les soumettrez à votre IA générative en faisant du RAG. Mais le RAG ne permet pas de faire des diagnostics. Le RAG permet juste d’inclure des résumés de vos nouvelles données dans ce que génère votre IA. Par conséquent, son efficacité globale tombera à 92, 91, 90 %.
Ce taux ne cessera de baisser. À un moment donné, vous devrez améliorer l’entraînement de votre modèle avec du fine-tuning sur vos données pour faire remonter son taux d’efficacité. Mais après un certain temps, son efficacité chutera encore. Et le delta entre vos nouvelles données et celles sur lesquelles votre modèle a été initialement entraîné deviendra si important, qu’il faudra à un moment ou l’autre repartir sur un tout autre modèle. Un modèle entraîné avec beaucoup plus de données que le précédent (nous voyons arriver ces jours-ci des modèles avec 2 000 milliards de paramètres).
C’est-à-dire que son entraînement aura nécessité beaucoup plus de puissance de calcul que le précédent. Et c’est la raison pour laquelle nous n’allons pas cesser de produire des GPUs toujours plus puissants : parce que l’IA n’est pas une ligne droite, c’est un cercle qui finit toujours par vous ramener à votre point de départ.
LeMagIT : Mais n’y a-t-il pas un problème économique ? Hors des périodes d’entraînement, des GPUs comme le H100 ou le G200 ne sont-ils pas démesurés pour simplement faire de l’inférence ou du RAG ?
Dave Salvator : Les entreprises ont de toute évidence un modèle économique à trouver et j’ignore vers lequel elles se tourneront. C’est la grande histoire de Nvidia : nous mettons sur le marché des innovations et nous avons ensuite la surprise de découvrir comment nos clients les utilisent.
Le marché a parlé d’utiliser des GPUs moins puissants pour l’inférence de modèles ou pour faire du RAG. Pour autant, si nos outils permettent de faire fonctionner toutes les fonctions d’IA sur tous nos GPUs qui ont le même socle logiciel Cuda, certains sont moins adaptés que d’autres. Car, lorsque vous commencez à avoir des modèles qui manipulent énormément de paramètres, les GPUs que vous utilisez doivent avoir une certaine quantité de mémoire, avec un certain niveau de bande passante.
Les scénarios possibles comprennent donc des entreprises qui ont investi dans des serveurs avec des GPU très puissants pour entraîner leurs modèles et qui utilisent ensuite ces modèles sur un nombre réduit de ces mêmes serveurs. Et qui ont vocation à constamment améliorer leur modèle à partir des nouvelles données entrantes, en utilisant les serveurs restants.
Citons aussi les fournisseurs de services en ligne d’IA qui auront besoin que leurs solutions génèrent du contenu en temps réel. À leur échelle, la quantité de traitements parallèles est telle qu’ils nécessiteront aussi les GPUs les plus puissants pour simplement faire du RAG.
LeMagIT : S’équiper en GPUs haut de gamme coûte très cher. Comment comptez-vous vendre des GPUs B200 à des entreprises qui ont déjà acheté des H100 ?
Dave SalvatorDirecteur des produits d’accélération, Nvidia
Dave Salvator : Nous concevons cette gamme de GPUs pour qu’ils soient interchangeables. Le B200 bicéphale sortira en même temps qu’un B100 monocéphale qui remplacera directement le H100 dans les serveurs DGX actuels. Il aura exactement la même enveloppe thermique de 700W, exactement les mêmes caractéristiques électriques et mécaniques. Par conséquent, les entreprises n’auront pas à réinvestir dans des serveurs de calcul, elles n’auront qu’à juste remplacer leurs GPUs.
De la même manière, le H200 sera interchangeable avec le B200.
LeMagIT : Aujourd’hui, vous régnez sur le marché des GPUs pour exécuter les fonctions de calcul de l’IA. Mais à un moment où l’autre AMD et Intel vont proposer des alternatives. Que pensez-vous de cette concurrence ?
Dave Salvator : Depuis tout ce temps – cela fait 12 ans que nous proposons des GPUs pour faire du calcul –, seul AMD est enfin parvenu à lancer un produit équivalent en fin d’année dernière. Nonobstant le fait qu’AMD ne publie bizarrement pas de benchmarks officiels MLPerfs pour montrer la prétendue efficacité de son MI300. Et malgré le fait qu’ils disent que leur MI300 est disponible, et qu’il faut attendre des mois avant que les serveurs soient livrés. Ils ont, surtout, un vrai problème de solution complète.
Le H100 est livré avec toute une plateforme logicielle pour l’exploiter. La meilleure plateforme du marché à l’heure actuelle, la plus performante, la plus complète pour faire de l’IA. Et pour cause : nous sommes le seul acteur de l’IA qui travaille avec absolument tous les autres acteurs de l’IA. Depuis 12 ans, nous avons été présents dans toutes les innovations que vous utilisez aujourd’hui. Et le B200 n’apporte pas une rupture, il est conçu pour accélérer cette même plateforme.
LeMagIT : Justement, concernant votre plateforme, vous lancez aujourd’hui le catalogue de microservices NIM. Comment pensez-vous qu’il va être utilisé ?
Dave Salvator : NIM est un catalogue de services qui sera commercialisé au travers de notre portail Nvidia AI Enterprise – qui permet déjà de télécharger des modèles préentraînés. Il fournira des briques applicatives, en containers, au format Cuda-X, pour bâtir des applications d’IA s’interfaçant avec des modèles préentraînés du marché, sur site ou en ligne, qui rendent possible le RAG et l’inférence sur ces modèles.
L’intérêt économique de NIM est que ses microservices sont validés, sécurisés. Nous proposerons des microservices de longue durée, qui vous garantissent que le module applicatif que vous déployez aujourd’hui fonctionnera toujours dans deux ans. Et nous assurons pendant toute la carrière de ces microservices toutes les mises à jour de sécurité.
Dave SalvatorDirecteur des produits d’accélération, Nvidia
Mais, surtout, l’intérêt fonctionnel de NIM est qu’il simplifie radicalement l’IA. Aujourd’hui, vous voulez développer un chatbot qui répond à vos clients en puisant dans toutes vos données. Mais vos données sont dans des bases hébergées sur GCP. Comment faire pour les ingérer dans votre Chatbot ? NIM a une solution qui est pour ainsi dire « presse bouton ». Avec pour ainsi dire aucun effort, vous déployez sur votre application un microservice qui ingère vos données sur GCP dans le modèle d’IA auquel vous souscrivez chez Azure.
LeMagIT : vous parliez précédemment de cycle de vie des modèles d’IA. Va-t-on trouver sur NIM des fonctions de gestion de ce cycle de vie ?
Dave Salvator : Pour l’heure, NIM a surtout vocation à proposer des briques d’interconnexions. Pour autant, c’est bien dans NIM que vous trouverez les microservices qui vous permettront d’étendre l’utilisation de votre modèle. Pour le reste, nous avons tout un champ des possibles afin d’enrichir NIM.
LeMagIT : Revenons au matériel. La carte GB200 intègre deux GPU avec votre processeur Grace, basé sur une architecture ARM Neoverse V2. Avez-vous l’intention de faire disparaître l’architecture x86 des serveurs de calcul ?
Dave Salvator : Dans notre architecture, les deux GPU communiquent avec le CPU via un bus C2C à des vitesses quinze fois supérieures de celles proposées par le bus PCIe des serveurs x86. Et grâce aux bus C2C, quand votre modèle a tellement de paramètres à gérer, le GPU peut aller chercher de la mémoire supplémentaire dans la RAM du CPU. Cela est impossible à faire sur un serveur x86. Dans notre architecture, les deux GPUs et le processeur sont considérés comme un seul processeur surpuissant, c’est inédit, cela démultiplie les possibilités.
Dave SalvatorDirecteur des produits d’accélération, Nvidia
Donc, nous sommes incapables de dire à date si notre architecture remplacera l’architecture x86 des serveurs classiques, mais nous faisons en sorte que ce soit possible.
Et au-delà de ce qui se passe au sein de la carte GB200, notre architecture se prolonge avec notre réseau NVLink qui permet lui aussi d’assembler tous les nœuds de votre cluster comme un seul GPU gigantesque du point de vue de l’application. Cela passe par une bibliothèque qui s’occupe de toute la topologie, de toute l’orchestration. Le développeur n’a rien à faire.
Alors, allons-nous avoir des applications qui fonctionneront intégralement sur nos processeurs Grace, ou nos cartes GB200 seront-elles juste des nœuds d’accélération pour des applications qui se lancent toujours depuis des serveurs x86 ? Comme je vous le disais précédemment : quand Nvidia lance une nouvelle architecture, il y a toujours derrière la surprise de voir comment elle est finalement utilisée.