La mania de l’IA générative, une aubaine pour Nvidia
Sans surprise, Nvidia a profité de sa conférence annuelle GTC pour surfer sur la tendance de l’IA générative. S’il y a bien la volonté de mettre l’étiquette IA sur toutes les présentations, il s’avère que le concepteur de GPU est en position de force dans ce domaine et qu’il a de véritables arguments pour s’assurer une place clé sur ce marché.
L’entreprise américaine établie à Santa Clara aurait tort de s’en priver. Pour entraîner et inférer les très gros modèles de langage, il faut une puissance de calcul importante et il s’avère que la majorité des charges de travail liées aux traitements du langage et des images s’appuient sur des GPU. Plus précisément des GPU Nvidia.
Un accent mis sur l’inférence
Déjà bien équipé en solutions hardware d’entraînement, Nvidia a complété sa gamme de cartes graphiques consacrée à l’inférence de traitements audiovisuels et textuels. Le Nvidia L4 Tensor Core, reposant sur une architecture Ada Lovelace, est un GPU pour data center doté de 24 Go de VRAM GDDR6, avec un petit TDP de 72 watts (en comparaison à l’A100, dont le TDP atteint 400 watts). Ce modeste L4 serait toutefois capable d’atteindre jusqu’à 30 Tflops en FP32, jusqu’à 120 téraflops en TF32 Tensor Core et jusqu’à 242 TFLOPS avec les formats FP16 et BFLOAT 16. Comme à son habitude, Nvidia propose de constituer des clusters comptant jusqu’à huit cartes PCie gen 4 interconnectées. Il s’agit du petit frère du L40 présenté en septembre dernier qui dispose, lui, de 48 Go de VRAM et d’un TDP de 300 Watts.
Google Cloud sera le premier à proposer les L4 Tensor Core en préversion privée depuis ses machines virtuelles G2. Selon GCP, ces instances sont dédiées à l’exécution de charges de travail d’IA générative, mais elles peuvent prendre en charge d’autres workloads dont les traitements graphiques lourds, l’accès à des workstations virtuels et surtout l’encodage/l’uspcale vidéo.
« En passant des GPU NVIDIA A10G aux instances G2 avec GPU L4, les entreprises peuvent réduire leurs coûts d’infrastructure de production jusqu’à 40 % », assurent les porte-parole de GCP, dans un billet de blog. « Nous avons également constaté que les clients qui passent des GPU NVIDIA T4 aux GPU L4 peuvent obtenir des performances deux à quatre fois supérieures ».
Une trentaine d’équipementiers fournira des machines dotées de L4 Tensor Core, dont Fujitsu, Gigabyte, ASUS, Atos, Cisco, Lenovo, HPE ou encore Supermicro.
Les GPU Nvidia, les moteurs dont Microsoft et OpenAI ne peuvent se passer
Pour l’inférence de grands modèles de langages (LLM), Nvidia est en train de concocter le biGPU H100 NVL. Les deux cartes PCIe basées sur l’architecture Hopper sont reliées par un bridge NVLINK trois ponts pour atteindre 188 Go de VRAM HBM3 (deux fois 94 Go de VRAM contre 80 Go pour le H100 PCIe), une bande passante totale de 600 Go/s et un TDP combiné compris entre 700 et 800 watts. Il sera possible de combiner deux ou quatre paires de ces biGPU occupant quatre slots chacun. Ils devraient être disponibles à partir du second semestre 2023.
Chirag DekateAnalyste, Gartner
« Les serveurs équipés de GPU NVL H100 augmentent les performances du modèle GPT-175B jusqu’à 12 fois par rapport aux systèmes NVIDIA DGX A100, tout en maintenant une faible latence dans les environnements de centres de données à alimentation contrainte », assure Nvidia dans un communiqué.
« Nvidia cible l’inférence à grande échelle », insiste Chirag Dekate, analyste chez Gartner. « ChatGPT a montré que passer de zéro à des millions d’utilisateurs nécessite un débit extrême, une faible latence et des performances élevées ».
Nvidia est non seulement le concepteur d’équipements nécessaires à l’entraînement et à l’inférence des modèles qui pullulent, mais il est aussi à l’origine de plusieurs projets d’IA d’envergure.
Nvidia AI Foundations : une boîte à outils pour entraîner les grands modèles de langage
Il en profite pour lancer Nvidia AI Foundations, une suite de services d’aide à l’entraînement d’IA générative propulsée par une offre cloud hybride nommée DGX Cloud.
AI Foundations est une édition managée de la plateforme logicielle Nvidia AI Enterprise que le fournisseur a agrémenté de trois outils, accessibles en accès anticipé, pour personnaliser des modèles de fondation. Les modèles de fondation sont de grands réseaux de neurones préentraînés censés généraliser leur apprentissage sur une tâche spécifique. Ici, Nvidia met à disposition trois de ses propres frameworks à la demande : NeMo, BioNeMo et Picasso.
« NeMo est une fonderie pour développer des cas d’usage très spécifiques à partir de modèles préentraînés », résume Jensen Huang, CEO de Nvidia, lors d’une conférence de presse.
Présenté à l’automne, NeMo est un framework consacré au traitement du langage naturel. Plusieurs librairies et modèles servent à la classification, la reconnaissance automatique de la parole, le text to speech, le NLP, ou encore la génération de textes. Nvidia n’avait pas précisé les modèles utilisés : ce sont des variantes de Megatron (530 milliards de paramètres). Une des variantes, NeMo Megatron-GPT 1.3B, est un transformer inspiré de GPT-2 et 3 disposant de 1,3 billion de paramètres. Dans l’idée, il serait possible d’optimiser le fonctionnement d’autres LLM à l’aide du framework. L’un de ses gros intérêts est de pouvoir entraîner un modèle d’un billion de paramètres sur plusieurs milliers de GPU.
Manuvir DasVP de l'informatique d'entreprise, Nvidia
Lors de sa conférence, Nvidia a dévoilé deux nouveaux modules permettent à un LLM de récupérer des informations précises à partir de sources de données et de créer des réponses aux questions des utilisateurs. Il s’agit de rendre possible la citation des sources et d’affiner le filtrage des contenus sensibles ou inappropriés.
Le service de recherche pharmaceutique BioNeMo, lui, fournit trois LLM préentraînés. Il y a d’abord MegaMolBART, un modèle de découverte médicamenteuse entraîné sur la représentation SMILES (Simplified Molecular Input Line Entry Specification) de 1,45 milliard de molécules. « Prot5 et ESM1-85M sont des modèles de langage protéique basés sur des transformateurs qui peuvent être utilisés pour générer des intégrations apprises pour des tâches telles que la structure protéique et la prédiction de propriétés », précise la documentation de Nvidia.
« Notre service met l’accent sur la personnalisation », assure Manuvir Das, vice-président de l’informatique d’entreprise chez Nvidia. « Chaque client peut partir de zéro ou utiliser l’un de nos modèles préentraînés pour prendre une longueur d’avance ».
Selon Chirag Dekate, cette approche soulagera les entreprises de la tâche fastidieuse que représente l’entraînement de leurs modèles d’IA générative.
« Les modèles sont incroyablement volumineux et, par conséquent, incroyablement coûteux à former dans de nombreux cas », rappelle-t-il. AI Foundations s’adresse « aux entreprises qui cherchent à personnaliser l’expérience de l’IA générative en fonction du contexte de leur entreprise ».
Picasso attire l’œil d’Adobe, de Getty Images et de Shutterstock
Enfin, Picasso est sans doute le service dont la peinture est la moins sèche. Il s’appuie pour l’instant sur eDiff-I, un modèle de deep learning ensembliste qui a fait l’objet d’un article de recherche publié le 14 mars 2023. À la manière de stable-diffusion ou de Dall-E2, il doit permettre de générer des images à partir d’une commande écrite en langage naturel.
Les modèles sur la place fonctionnent peu ou prou de la même manière : ils interprètent le texte, puis génèrent l’image pour atteindre in fine un rendu satisfaisant. Les chercheurs de Nvidia ont tenté de modifier ce comportement en subdivisant les tâches d’interprétation du texte et de génération d’images à plusieurs modèles spécialisés. Il en résulterait une meilleure interprétation des commandes et des images de plus haute qualité. Par ailleurs, les ingénieurs ont pensé un système qui permet de faire varier l’image générée en calquant leur approche sur un modèle de prédiction de type T5.
Le Framework Picasso devra permettre de générer des images, des vidéos et des modèles 3D. Ces modèles 3D pourront être convertis dans le format Universal Scene Description de Pixar, importé dans la plateforme Omniverse de Nvidia et utilisé comme ressources pour créer n’importe quel environnement.
Cette approche a convaincu Adobe, Getty Images et Shutterstock.
Nvidia et Getty Images formeront des modèles de fondation texte-image et texte-vidéo sur les actifs sous licence de Getty Images, informe le concepteur de GPU. Les artistes recevront des royalties sur les revenus générés par les modèles.
Dans le même temps, Adobe et Nvidia travaillent au développement de modèles d’IA générative axés sur la transparence, indiquent les deux partenaires. Les modèles seront alimentés par Content Credentials, le programme d’Adobe approuvé par la Content Authenticity Initiative. Adobe prévoit de commercialiser ses travaux et de les intégrer dans des produits tels que Photoshop, Premiere Pro et After Effects. On ne sait pas encore quand l’éditeur procédera à cette intégration.
Selon Rowan Curran, analyste chez Forrester Research, ces partenariats représentent une orientation forte pour le marché de l’IA générative, en particulier pour la création de contenus visuels.
L’IA et l’art, un problème de droits
« L’IA générative d’images est en train de devenir opérationnelle pour les entreprises », avance Rowan Curran. Il ajoute que les entreprises ont besoin à la fois de matériel et de logiciels pour construire leurs propres modèles. « Ces fournisseurs de photos et de rush vidéo qui se lancent dans ce domaine sont un excellent indicateur pour les entreprises qui étaient très intéressées par l’IA générative, mais qui étaient un peu tendues en raison de certaines procédures juridiques qui se déroulaient autour d’elle ».
L’approche d’Adobe serait rassurante, selon l’analyste.
Rowan CurranAnalyste, Forrester Research
« Il s’agit d’un premier pas vers l’élaboration d’un modèle sur lequel nous sommes tous d’accord – d’un point de vue socioculturel et éthique – sur la manière de gérer l’art génératif », avance-t-il. « Tout cela montre comment nous pouvons intégrer l’IA générative dans notre paysage artistique tout en faisant preuve d’empathie, de soutien et d’ouverture à l’égard des artistes qui ne souhaitent pas être impliqués dans l’espace de l’IA générative ».
Mais ce type de soutien n’apaise pas les inquiétudes concernant la suppression des emplois d’artistes et d’illustrateurs.
« L’art continue d’évoluer », déclare Rowan Curran. « Toutefois, les organisations qui développent les outils devraient s’efforcer de comprendre les préoccupations des artistes ».
En attendant, Nvidia se trouve en bonne position pour répondre à la demande grandissante liée à l’IA, signale l’analyste. Comme Jensen Huang l’a déclaré à de nombreuses reprises lors de la conférence de presse, il reste avant tout un concepteur de GPU et joue des partenariats avec ses partenaires OEM et les fournisseurs cloud, dont AWS, Oracle, GCP et Microsoft Azure.
Même si certains d’entre eux conçoivent leurs propres puces de traitement AI/ML, Nvidia a su rallier un plus large écosystème autour de ses technologies. Quant aux librairies et aux offres logicielles, elles sont là pour « ouvrir des opportunités », dixit le CEO de Nvidia.
Est-ce que l’IA générative rapporte déjà de l’argent à l’entreprise ? « Très peu l’année passée », répond honnêtement l’intéressé à la question d’un journaliste. « Mais les prévisions pour cette année sont très encourageantes », conclut-il.