StockPhotoPro - stock.adobe.com

Génération de vidéos : OpenAI lance Sora Turbo

Après avoir présenté introduit Sora en février 2024, OpenAI a dévoilé le 9 décembre la disponibilité partielle de Sora Turbo. Si le modèle est capable de générer des vidéos plus rapidement, il pose encore des enjeux techniques et n’est pas disponible en France.

La collection de modèles Sora propose des générateurs de vidéos qui ont impressionné les internautes pour la qualité des visuels produits. Il faut dire que cette technologie n’a rien de trivial.

Qu’est-ce qu’un diffusion transformer ?

Contrairement à GPT-4o, Sora n’est pas à proprement parler un grand modèle de langage (Large Language Model ou LLM), mais un modèle diffusion latente et plus particulièrement un « diffusion transformer ».

Un modèle de diffusion latente peut être présenté comme un outil capable de bruiter une image de manière itérative puis de la débruiter (à l’aide d’une fonction gaussienne). Pour quoi faire ? Pour reproduire la fameuse image, par exemple dans une résolution supérieure, ou pour en créer une nouvelle.

Il s’agit d’une intelligence artificielle à ranger originellement dans la catégorie de la vision par ordinateur (computer vision). A ses débuts, elle était propulsée par un réseau de neurones convolutif de type U-Net.

Le consensus scientifique se dirige depuis quelques années vers une hybridation de la computer vision et du traitement du langage naturel.

Ainsi, un diffusion transformer remplace le réseau de neurones convolutif de l’architecture originelle des modèles de diffusion latente par un Transformer. Un Transformer n’est autre que la fondation d’un LLM. Résultat, cela permet d’interagir en langage naturel avec le modèle et donc de guider la production de contenus.

Les diffusion transformers, comme Stable Diffusion ou Dall-E-3 génèrent des images. OpenAI a attesté qu’il était d’adapter cette technique à la vidéo. D’où l’existence de Sora.

Ainsi, Sora et Sora Turbo génèrent « une vidéo de base bruitée, et la transforme en retirant le bruit étape par étape », résume OpenAI.

La startup n’est pas la première à s’être lancé dans un tel projet. Sa spécificité, c’est qu’elle a exploité des vidéos en haute résolution de divers formats, alors que les projets similaires se limitaient à l’encodage de carré de 256x256 pixels. Il faut dire qu’OpenAI dispose d’une puissance de calcul bien plus importante qu’une équipe moyenne de R&D. Outre l’exploitation de jeux de données publiques, le fournisseur de modèles a noué un partenariat avec Shutterstock pour accéder à sa banque de vidéos sous licence. Ce sont généralement des contenus utilisés dans la publicité, dans des court-métrages ou pour insérer des « plans de coupe », c’est-à-dire de courts extraits servant de transition entre deux scènes.

À partir de ces données, les modèles Sora sont censés reproduire le mouvement et les éléments vus à l’entraînement dans les vidéos, afin de (re)créer une scène.

En ce sens, Sora et Sora Turbo sont capables de « prédire plusieurs images à la fois » et de faire en sorte que le sujet (un homme, un animal, une voiture, etc.) ne change pas du tout ou tout d’une image à l’autre. Ici, OpenAI a entraîné les modèles avec des vidéos compressées puis divisées que les chercheurs décomposent en « patchs spatio-temporels ». Ceux-là encodent le mouvement et le visuel sur « de courts intervalles ». Dans son rapport technique, OpenAI illustre son propos avec une petite série d’images d’un poisson tropical qui se cache dans des algues.

Selon d’autres chercheurs qui ont étudié de près le travail d’OpenAI, ces patchs sont l’équivalent des tokens, ces séquences de caractères qui encapsulent des mots, des phrases et leurs sens. Les patchs seraient alors des « phrases visuelles ».

Pour influencer le résultat, Sora et Sora Turbo se servent des instructions en entrée : du texte, des images, mais aussi des vidéos. OpenAI a utilisé la même technique que lors du développement de Dall-E 3 : la startup a entraîné un modèle capable de légender de manière très précise le corpus d’entraînement. Par ailleurs, quand l’utilisateur soumet une courte instruction, la startup la soumet à un de ces LLM GPT pour l’enrichir avant de la présenter à Sora.

Un outil de montage pour tenter de contrôler les résultats

Quand Sora peut créer des vidéos d’une longueur d’une minute à la résolution de 720p Sora Turbo se limite 20 secondes, mais en « full HD », c’est-à-dire en 1920x1080 pixels (la résolution de la formule standard de Netflix). Comme son nom l’indique, Sora Turbo génère plus rapidement du contenu que la préversion lancée en février, dixit OpenAI.

Outre Sora Turbo, l’entreprise a développé une interface Web afin de faciliter la génération de vidéos en faisant varier le format, la résolution et le nombre d’itérations. Des outils de montage permettent d’éditer les vidéos ou les réutiliser pour générer d’autres contenus.

Pour l’heure, Sora et Sora Turbo sont parmi les modèles les plus performants de leur catégorie. Il faudra comparer les résultats avec les modèles Nova d’Amazon, présentés la semaine dernière lors de l’événement Re:Invent 2024. Toutefois, OpenAI prévient que ses diffusion transformers ne sont pas encore parfaits, loin de là. « La version de Sora que nous déployons présente de nombreuses limitations. Elle génère souvent des effets physiques irréalistes et a du mal à gérer des actions complexes sur de longues durées », préviennent les chercheurs.

En clair, il semble peu probable qu’une équipe marketing ou des spécialistes de la production vidéo l’exploitent de but en blanc. Elle parait en revanche pertinente pour réaliser des maquettes ou des mockups publicitaires.  

 Aussi, OpenAI doit relever plusieurs défis : elle tente de bloquer au mieux les contenus nocifs, appose un filigrane pour empêcher les « deep fakes » (ou les problèmes de droits) et la technologie est encore chère.

Les deux modèles sont accessibles par les utilisateurs de ChatGPT Pro et Plus à travers un site distinct : sora.com. Avec Sora, les usagers de ChatGPT Plus peuvent générer jusqu’à 50 vidéos d’une résolution de 480p ou « un peu moins de vidéos » en 720p. Avec ChatGPT Pro, il est possible de créer 500 vidéos. En revanche, ces modèles ne sont pas disponibles en France et dans le reste de l’Union européenne.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM