Jensen Huang : « Nvidia redynamise le marché des datacenters »
Le patron de Nvidia prédit une relance des investissements dans les datacenters au profit de nouveaux serveurs accélérés pour l’IA. Étant de loin le leader dans ce domaine, Nvidia se voit même devenir le No 1 de l’informatique.
Jensen Huang, le patron-cofondateur de Nvidia (en photo), est-il le nouveau grand gourou de la tech ? C’est en tout cas l’impression qu’il a donnée à un parterre de journalistes lors d’une session de questions-réponses avec la presse, organisée en marge de l’événement GTC 2024 qui se tenait la semaine dernière dans la Silicon Valley.
L’ingénieur, qui concevait des microprocesseurs chez AMD au début des années 90 et qui est aujourd’hui à la tête d’une entreprise dont le dernier CA trimestriel a bondi de 265 % en un an, s’est livré avec gourmandise au jeu des prédictions disruptives.
Sa légitimité ? Sur un marché des infrastructures pour data centers, qui pèse environ 250 milliards de dollars par an et qui n'a guère évolué ces dernières années, les entreprises vont dépenser 1 000 milliards de dollars d’ici à 2028 rien que pour s’équiper en nouvelles infrastructures dédiées à l’IA.
Or, à date, ces infrastructures portent toutes d’une manière ou d’une autre la marque Nvidia. Et ce n’est pas que Nvidia qui l’affirme. Les cabinets d’analystes, Dell’Oro Group pour n’en citer qu’un, le confirment.
Pour rappel, Nvidia est à l’heure actuelle le principal fabricant de puces accélératrices – les A100, puis H100/H200 et désormais B100/B200 – qui raccourcissent les temps de calcul grâce à une architecture électronique au design massivement parallélisé. Il conçoit aussi les nœuds de calcul DGX qui portent ces puces et l’infrastructure réseau NVLink qui interconnecte ces nœuds DGX en clusters SuperPODs. Il édite enfin tout un catalogue d’outils logiciels pour administrer, programmer et utiliser ces infrastructures.
Toutes les technologies de Nvidia sont propriétaires ; il ne s’agit en aucun cas de décliner des produits standard comme les processeurs x86, les réseaux Ethernet, ou des outils communautaires. Pour Nvidia, ces technologies font partie de l’Ancien Monde, comparativement aux siennes qui seraient des dizaines, voire des centaines de fois plus performantes. Et ce sont bien les produits de Nvidia qui, à l’heure actuelle, sont utilisés pour mettre sur le marché la majorité des applications d’IA générative.
Pour donner un peu de perspective, le dernier CA trimestriel de Nvidia atteint 22,1 milliards de dollars, soit pratiquement autant que les 25 mds $ réalisés par Dell, le No 1 des serveurs sur la même période. Intel, le numéro 1 des processeurs pour serveurs, a quant à lui réalisé un CA de 15,4 mds $ lors du dernier trimestre. Son challenger AMD a atteint 6,17 mds $.
L’enjeu de devenir le fournisseur numéro 1 des datacenters
« Nous ne sommes pas les seuls à faire des GPUs, mais le marché des GPUs n’est pas celui que nous visons. Notre opportunité commerciale, c’est le data center. Ce marché va grossir de 20 à 25 % par an, essentiellement parce que les entreprises vont investir dans des infrastructures de serveurs accélérés pour le calcul ou entièrement dédiés à l’IA générative » a ainsi justifié Jensen Huang.
« Nvidia ne fabrique pas seulement des puces. Nvidia fabrique toute l’infrastructure datacenter qui va avec. Et tous les logiciels pour exploiter cette infrastructure. Et nous sommes capables de tout assembler pour fabriquer un datacenter entier, de tout configurer pour rendre ce data center le plus performant possible, puis de tout décomposer en briques fonctionnelles pour que vous construisiez votre propre datacenter, avec le réseau, le stockage ou encore la console d’administration de votre choix. Dans tous les cas, Nvidia est aussi un fournisseur qui vous accompagne dans la construction de ce data center », a-t-il précisé.
« Laissez-moi être encore plus clair. Nous fabriquons des serveurs DGX que vous pouvez acheter. Mais nous en vendons aussi les pièces à Dell pour qu’il fabrique et vende des configurations HGX basées sur ses propres serveurs. Et nous aidons Dell à les vendre. »
« Et nous faisons la même chose en cloud. Nous avons notre propre offre cloud, DGX Cloud. Mais en fait, nous ne sommes pas fournisseur de cloud. DGX Cloud fonctionne dans le cloud des hyperscalers. Et nous travaillons avec eux pour qu’ils déploient des architectures Nvidia dans leurs clouds, pour que les entreprises souhaitant accéder à l’IA aillent dans leurs clouds. »
Le PDG de Nvidia a alors martelé qu’il ne concurrençait aucun fournisseur d’infrastructure, que son entreprise n’était qu’un fournisseur de plateforme technologique à leur service. Selon lui, l’enjeu de la conférence GTC 2024 ne serait même pas de vendre des produits Nvidia clés en main, mais juste d’être une vitrine pour recruter des développeurs.
« Voyez-nous au même niveau que les processeurs x86, les barrettes de RAM ou le réseau Ethernet. Nous sommes cette architecture essentielle. Sauf que ces technologies n’ont plus besoin de développeurs. La nôtre ne fait que démarrer sa carrière et a besoin de développeurs. »
Vers de nouvelles architectures informatiques
Dans le détail, Jensen Huang estime que l’IA – et surtout l’IA générative – change en profondeur les technologies utilisées dans les datacenters. Selon lui, l’avenir sera fait de serveurs qui utiliseront majoritairement des mémoires HBM dans les processeurs comme ils utilisent aujourd’hui des mémoires DDR sur leur carte mère.
Il estime que, au-delà de la puissance de calcul massivement parallélisée de ses GPUs, c’est bien le fait d’utiliser de la mémoire HBM qui permet au logiciel Earth 2 de Nvidia de prédire le climat n’importe où sur la surface de la Terre avec une précision de 3 km, depuis un cluster de calcul compact. Comparativement, ce cluster compact nécessiterait 3 000 fois moins d’énergie que le cluster géant qu’il aurait fallu construire si l’on avait voulu atteindre un tel niveau de précision avec des serveurs standard, sans GPU ni mémoire HBM.
« Le marché des infrastructures datacenter se demande comment repousser les limites. Mais repousser les limites, ce n’est plus juste gagner en puissance. C’est le faire en économisant de l’énergie », dit Jensen Huang. Selon lui, un modèle comme GPT-4 aurait été entraîné pendant 90 jours sur 8 000 GPUs H100, ce qui aurait coûté 15 mégawatts en énergie.
« Le progrès, c’est de pouvoir toujours entraîner GPT-4 en 90 jours, mais avec 2000 GPUs B200, notre nouveau modèle, ce qui réduirait la consommation d’énergie à seulement 4 mégawatts. C’est en économisant ainsi l’énergie que nous allons pouvoir repousser les limites de ce qui est faisable. » De fait, un B200 embarque au-dessus de deux fois plus de mémoire HBM.
Selon le patron de Nvidia, l’avenir est surtout à la déclinaison de GPUs Nvidia avec mémoire HBM pour les appareils personnels. Et, étonnamment, il s’agira là aussi de le faire pour économiser de l’énergie :
Jenden HuangPDG-cofondateur de Nvidia
« Ce qui coûte aujourd’hui en temps de latence et en énergie sur les smartphones, les PC ou les tablettes, c’est que tout ce que vous leur demandez de faire nécessite d’envoyer une requête sur les réseaux pour télécharger des données. À l’avenir, ce sera moins le cas. Vos appareils généreront eux-mêmes l’essentiel des données que vous attendez. L’idée est que les pixels de votre écran ne soient globalement plus récupérés ailleurs, qu’ils soient générés localement, de manière pertinente avec votre contexte d’utilisation. »
L’architecture Blackwell qui intègre ainsi de nouveaux circuits Transformer serait, selon Nvidia, particulièrement adaptée pour générer, depuis une mémoire embarquée, les images photo-réalistes d’une vidéo dont seul le descriptif serait téléchargé depuis Internet. Un peu comme si le bénéfice le plus tangible de l’IA générative serait finalement de pouvoir enfin appliquer aux vidéos le principe de la vectorisation.
« C’est assez ironique, n’est-ce pas ? Nos GPUs sont partis de la génération d’images de synthèse, ont évolué en calculateurs pour l’apprentissage de l’IA, puis en processeurs d’IA générative et maintenant ils vont refaire ce qu’ils faisaient dès le départ : générer des pixels », s’amuse Jensen Huang.
La clé du succès : fournir aussi l’environnement logiciel
Lorsqu’on lui fait remarquer que Nvidia n’est peut-être pas si hégémonique que cela, ne serait-ce que parce qu’il existe désormais des puces véritablement dédiées à l’IA, comme celles de la startup Groq qui devrait coûter bien moins cher que les GPU à 30 ou 40 000 dollars de Nvidia, Jensen Huang rétorque que ces puces dédiées sont limitées à un seul type d’usage : « La génération de tokens doit être spécialement optimisée modèle par modèle. Avec de telles puces dédiées, vous fabriquez des serveurs configurables pour affiner les résultats d’un type de modèles selon vos besoins. Nos GPUs, parce qu’ils sont massivement parallélisés, servent à fabriquer des serveurs programmables, que l’on peut optimiser pour tous les modèles. »
S’il ne précise pas ce qu’il pense du GPU MI300 qu’AMD vient de lancer pour contrer ses puces accélératrices, le patron de Nvidia rebondit à ce moment sur le second point fort de son offre qui, il l’espère, pourrait le rendre aussi omniprésent dans les data centers que VMware ou Red Hat : l’environnement logiciel. Alors qu’AMD compte sur la communauté des développeurs pour trouver comment exploiter au mieux sa nouvelle puce, Nvidia fournit des kits de développement et des bibliothèques fonctionnelles pour ses GPUs depuis une douzaine d’années.
Jenden HuangPDG-cofondateur de Nvidia
« La puissance de l’IA, ce n’est pas tant une question de puce qu’une question de logiciels. Parce que les modèles préentraînés ne sont pas complètement utilisables à la base. Il faut encore les adapter, les ajuster, les protéger, leur donner accès à des informations exclusives, et ainsi de suite. Et donc, pour que les entreprises puissent le faire, il faut encore l’entourer de services. »
« Notre métier, fondamentalement, c’est surtout de simplifier la création du prochain ChatGPT. Notre métier est aussi de faire en sorte que vous n’ayez pas besoin de savoir programmer en C++ pour effectuer un travail avec une IA générative et affiner la qualité des résultats. L’IA a pour enjeu de réduire le fossé entre la créativité et la création. Et l’enjeu de Nvidia est de réduire le fossé entre les humains et la complexité de l’IA », argumente Jensen Huang.
Les derniers exemples en date parmi ces outils logiciels sont les microservices du nouveau catalogue NIM. Ils permettent aux développeurs d’étendre simplement leurs applications avec des modèles préentraînés installés localement ou disponibles en cloud.
« Nous avons développé NIM au départ pour simplifier l’usage des modèles d’IA en recherche biologique, qui sont incroyablement complexes à manipuler pour les chercheurs. À partir de NIM, nous avons pu développer l’application d’IA générative BioNeMo, qui utilise des modèles biomoléculaires de pointe pour la découverte de médicaments. »
« Mais notre idée n’est pas tant d’inventer des IA, elle est plutôt de vous aider à fabriquer la vôtre, de sorte qu’elle soit ensuite utilisable par le plus grand nombre. Je pense que cette activité va être l’une de nos plus rentables rapidement », assure-t-il.
Les microservices NIM font partie d’un catalogue logiciel plus large, NeMo, dans lequel on trouve des outils prêts à l’emploi pour préparer les données sources, s’en servir pour entraîner ou parfaire des modèles, puis les utiliser, soit par inférence, soit en faisant du RAG. Nvidia vient également de multiplier les connecteurs pour son moteur de jumeau numérique, Omniverse, qui permet de simuler et de prédire in vitro n’importe quelle activité industrielle.
« Nous sommes une plateforme technologique complète. SAP veut sa propre IA. ServiceNow veut aussi sa propre IA. NetApp veut sa propre IA. Les fabricants de robots industriels veulent leur propre IA. Nous avons la technologie, l’expertise et les outils pour les aider à bâtir ces IA », conclut-il.