sdecoret - stock.adobe.com

Nvidia veut mettre l’IA générative au service de la conception 3D

Le spécialiste des cartes graphiques a présenté des modèles d’IA générative disponibles sous forme de microservices. Ils doivent favoriser l’adoption du framework OpenUSD et simplifier la conception d’environnements 3D, dont les métavers.

Le 29 juillet, lors de la conférence SIGGRAPH consacrée au graphisme et à l’infographie, Nvidia a dévoilé de modèles d’IA générative consacrés à la norme Universal Scene Description, ou OpenUSD. Ils sont disponibles en préversion sous la forme de microservices Nvidia NIM.

Pour rappel, les images de conteneurs NIM avaient été présentées par Nvidia lors de sa conférence GTC en mars 2024.

Les microservices NIM sont principalement consacrés au déploiement de modèles d’IA générative. Ils permettent aux entreprises de créer et de déployer des applications personnalisées sur leurs plateformes.

OpenUSD est un projet open source libéré par le studio d’animation Pixar. Ce framework aide à créer, interchanger et assembler des scènes 3D complexes. Avec son système de hiérarchie, il permet de composer ces scènes à partir de milliers de fichiers, et de faire varier les modèles 3D. OpenUSD prend par ailleurs différents formats de données issus d’outils comme Blender, Maya, Houdini ou encore Unreal Engine qu’il convertit dans son propre format open source.

Cette clé de voûte pour la production de films d’animation chez Pixar est d’abord utilisée dans l’industrie du jeu vidéo et la conception de contenus en réalité virtuelle.

Depuis 2023, OpenUSD est supporté par une alliance (Alliance for OpenUSD, ou AOUSD) créée par Nvidia, Autodesk, Apple, Adobe et Pixar. L’alliance en question a été fondée pour favoriser les usages grandissants dans les domaines de l’architecture, la construction, l’ingénierie civile, l’automobile et le manufacturing. Parmi les membres de l’AOUSD, l’on retrouve Microsoft, Ansys, Siemens, Foxconn, Ikea, Meta, ou encore Sony.

Et c’est justement dans cette logique que Nvidia présente ces microservices NIM pour OpenUSD.

Nvidia adapte ses microservices NIM pour OpenUSD

Les nouveaux NIM OpenUSD permettront aux développeurs d’incorporer des copilotes et des agents d’IA générative dans les flux de travail OpenUSD. En préversion, Nvidia a d’abord lancé USD Code NIM, USD Search NIM et USD Validate NIM.

Le microservice USD Code NIM répond aux questions générales sur cette technologie et génère du code OpenUSD Python sur la base de prompts. USD Search NIM permet aux développeurs d’effectuer des recherches dans d’énormes bibliothèques de données OpenUSD et d’objets 3D à l’aide d’entrées en langage naturel ou d’images. Enfin, l’image USD Validate NIM contient un moteur de règles qui vérifie la compatibilité des fichiers téléchargés au regard de la version d’OpenUSD en sus de générer un rendu 3D propulsé par le service Omniverse Cloud.

Plus précisément, USD Code NIM est une variante de Llama 3-70B Instruct de Meta entraîné sur des données et des bases de connaissances OpenUSD. USD Search s’appuie sur NVCLIP, un modèle propriétaire basé sur le projet open source d’OpenAI, CLIP (Constrative Language-Image Pretraining). Normalement adaptée à la génération de description textuelle à partir d’images, la base de NVCLIP a été configurée pour la recherche de documents et de fichiers.

D’autres microservices tels qu'USD Layout NIM, USD SmartMaterial NIM, fVDB Mesh Generation NIM, fVDB Physics Super-RES NIM et fVDB NeRF-XL NIM seront bientôt disponibles.

Ceux-ci permettront d’assembler des éléments 3D pour constituer des scènes 3D à partir de prompts, de prédire et d’appliquer des rendus réalistes de matériaux à des objets conçus en CAO, de générer des environnements 3D et de simuler la physique associée. Ils sont entraînés à partir de techniques d’informatique spatiale.

Les lettres fVDB correspondent à un framework de deep learning présenté en « early access » par Nvidia. Celui-ci s’appuie sur OpenVDB. Cette librairie écrite en C++ inclut une suite d’outils et une structure de données hiérarchique. Elle a été conçue par DreamWorks Animation pour simuler des effets volumétriques (feu, nuages, vagues, tempêtes de sable, etc.). OpenVDB est à la fois utilisé dans le domaine de l’animation et la production de films.

FVDB rassemble des « opérateurs IA » qui s’appuient sur la structure de données d’OpenVDB pour faciliter la conception de jumeaux numériques ou encore de permettre la génération d’images 3D à partir de LLM (Large Language Model ou grand modèle de langage).

Nvidia développe notamment des champs de radiance neuronaux (Neuronal Radiance Fields ou NeRF). Ces réseaux de neurones sont entraînés « pour reconstruire des scènes tridimensionnelles à partir d’un ensemble partiel d’images bidimensionnelles », explique AWS dans sa documentation.

Quant à la technique Mesh évoquée dans le nom d’un des NIM, elle renvoie à la reconstruction de maillage (Mesh Reconstruction), c’est-à-dire la modélisation 3D à partir de nuage de points. La technique est, entre autres, utilisée par l’équipementier sportif ASICS, client de Dassault Systèmes, pour imprimer des semelles personnalisées à partir d’un modèle 3D des pieds des porteurs. Certains des clients de Nvidia l’utilisent pour modéliser le monde réel à partir de capture LIDAR. Cette technique est très appréciée des concepteurs de voitures autonomes pour émuler des environnements de conduite.

Justement, FVDB doit simplifier l’utilisation de ces espaces 3D pour entraîner d’autres réseaux de neurones à partir d’instances d’Omniverse Cloud. « Les industriels ont déjà collecté des pétaoctets de données issues du monde réel. Cependant, l’usage de ces données brutes pour l’entraînement d’IA est difficile, car il n’y a pas de framework cohérent pour créer des environnements 3D adaptés à ces IA », défend Nvidia. « Les développeurs doivent développer leur propre framework, ce qui demande souvent d’abaisser l’échelle et le réalisme de la simulation ».

Jumeaux numériques, simulation 3D et métavers : les options de Nvidia pour maintenir sa croissance

Contrairement au boom de l’IA générative, le métavers n’a pas connu de popularité immédiate. Il reste essentiellement confiné à la réalité virtuelle et augmentée, et à certaines applications industrielles telles que les jumeaux numériques.

Dans ce contexte, l’expansion des microservices NIM montre à la fois l’engagement de Nvidia en faveur de l’IA générative et ses ambitions dans le monde physique et numérique, selon Charlie Dai, analyste chez Forrester Research.

« Pour le métavers, la plateforme Omniverse de Nvidia reste la pierre angulaire de sa stratégie visant à favoriser la création et la connexion de mondes virtuels en 3D », affirme-t-il. « Ces microservices sont l’une des étapes de ce voyage ».

L’un des défis du métavers est le manque de normalisation pour rassembler l’infrastructure élastique et évolutive, la puissance de calcul, le stockage et les données de l’environnement virtuel. Selon Andy Thurai, analyste chez Constellation Research. Malgré l’existence d’OpenUSD, les industriels n’ont pas trouvé de solutions durables pour l’interopérabilité des systèmes et les données, selon lui.

Ainsi, avec ses microservices NIM, « Nvidia espère apporter des capacités d’IA générative à la robotique, au métavers, au design industriel et aux jumeaux numériques », assure Andy Thurai.

Avec la visualisation et la simulation d’environnements grâce au microservice USD Code NIM, Nvidia peut aider les utilisateurs à revisiter des parties du métavers qui étaient trop difficiles à développer auparavant, comme les mondes en réalité virtuelle et augmentée, ajoute-t-il.

Toutefois, le groupe californien risque de se confronter au mur de l’adoption.

« Les domaines industriels auxquels Nvidia s’attaque sont trop nombreux et sont très dispersés, tant au niveau de la technologie que des normes », note Andy Thurai. « Il sera extrêmement difficile de convaincre les clients d’adopter ces services ».

Par ailleurs, l’Alliance for OpenUSD a été créée pour aider les entreprises industrielles à adopter des technologies avancées telles que le métavers, indique-t-il.

En plus de soutenir le métavers industriel, Nvidia regarde également vers l’avenir, poursuit-il. L’IA générative semble ralentir dans sa phase d’adoption, et les entreprises n’adoptent pas la technologie au même rythme qu’elles l’expérimentaient.

« Si le marché ralentit, Nvidia pourrait être durement touchée », anticipe l’analyste de Constellation Research. « Nvidia veut se placer en tête en pensant et en innovant dans ce domaine et en étant à nouveau un faiseur de marchés. »

Getty Images et Hugging Face renforcent leurs partenariats avec Nvidia (et vice-versa)

En attendant, le partenaire de Nvidia, Getty Images, a annoncé le 29 juillet la mise à jour de son LLM de génération d’images.

Ce modèle de diffusion s’appuie sur l’architecture Edify de Nvidia. Celle-ci est incluse dans le framework Nvidia Picasso dédiée à la création et au déploiement de modèles d’IA générative pour le design visuel.

En outre, les solutions de GenAI de Getty Images et d’iStock (propriété de Getty Images) ont été améliorées. Elles peuvent maintenant générer des images en environ six secondes, offrir des détails plus précis, prendre en charge des prompts plus longs, et permettre un meilleur contrôle du résultat grâce à des options comme le type de prise de vue et la profondeur de champ. Les utilisateurs peuvent aussi modifier les images générées ainsi que les images sources.

Enfin, Nvidia a mis en avant son partenaire Hugging Face qui proposera aux développeurs un service d’inférence alimenté par Nvidia NIM.

Pour approfondir sur IA appliquée, GenAI, IA infusée