Demain, Nvidia aura une IA pour modéliser en 3D à partir de prompts
Le projet LATTE3D doit générer des objets modélisés en 3D à partir de simples prompts. Selon les analystes il servira plus à exporter des objets dans l’environnement Omniverse de Nvidia qu’à remplacer les outils de conception 3D.
Dans les labos de Nvidia. Le fournisseur a présenté en marge de son récent événement GTC 2024 un projet de recherche consacré à la création d’objets ou de personnages modélisés en 3D à partir d’un simple descriptif tapé au clavier.
Ce projet est baptisé LATTE3D et il a pour vocation de se substituer aux logiciels de conception habituellement utilisés dans l’industrie graphique, puisque les modèles seront a priori exportables vers des outils d’animation et de mise en scène. LATTE3D peut aussi servir à générer un rendu 3D que l’on peut directement copier/coller dans un logiciel de composition d’image.
Dans sa démonstration actuelle, LATTE3D exporte surtout les objets au format de l’environnement Omniverse de Nvidia. Ce dernier permet d’assembler et d’animer des métavers et, le plus souvent, des jumeaux numériques. Ceux-ci servent à superviser ou à simuler des installations industrielles (notamment dans le cadre d’usines peuplées de robots), mais aussi le fonctionnement d’infrastructures (datacenters, centrale énergétique, réseaux d’antennes de communication) ou encore un parc de véhicules autonomes sur un terrain donné.
IA générative oblige, LATTE3D repose sur un modèle qui a été pour l’heure entraîné sur deux ensembles de données, l’un concernant les animaux et l’autre des objets. Pour autant, d’autres jeux de données sont possibles. Nvidia dit que la même structure permettrait d’entraîner un modèle d’IA à partir, par exemple, de données morphologiques propres aux plantes.
Enfin, Nvidia a conçu LATTE3D en utilisant des analyses amorties, un mécanisme qui permet au modèle de décomposer un prompt en différentes requêtes afin de générer des résultats plus rapidement.
Surtout une démonstration technique à ce stade
Chirag Shah, professeur à l’école d’information de l’université de Washington est dubitatif quant aux possibilités offertes : « ce que fait Nvidia avec LATTE3D, c’est montrer les prouesses de ses GPU et les possibilités de son matériel pour toute une série d’applications. Latte3D ne produit pas lui-même de meilleures images 3D que les autres logiciels ; du moins, pas de manière notable et révolutionnaire. »
« Ce qu’il permet, en revanche, c’est de produire de telles images beaucoup plus rapidement… Si on possède du matériel Nvidia. De fait, créer des modèles ou des images 3D à partir d’une IA générative demande plus d’investissement en puissance de calcul que les méthodes traditionnelles. »
David Nicholson, analyste au Futurum Group, doute que LATTE3D soit beaucoup utilisé en dehors d’Omniverse : « Ce n’est pas parce qu’il permet d’optimiser la création d’images et de modèles 3D qu’il sera utilisé, par exemple, pour la production d’un film d’animation. Les techniques utilisées par Nvidia présentent les mêmes limites et les mêmes risques que les autres techniques de génération d’images à partir de textes », fait-il remarquer.
Il évoque en l’occurrence les aberrations graphiques produites par le chatbot Gemini de Google – au point que ce dernier a retiré début mars la fonction de génération d’images – qui partagerait des techniques similaires à celles de LATTE3D.
« Expliquer avec du texte à quoi doit précisément ressembler une image était déjà compliqué. Que ce soit pour la générer comme pour demander à Google de la trouver sur Internet, d’ailleurs. Le faire pour générer des modèles 3D qui sont encore plus complexes à décrire devrait être pire », estime David Nicholson.