prasit2512 - stock.adobe.com

Avec ses modèles Nova, Amazon veut casser les prix de l’IA multimodale

Ils ne sont peut-être pas les plus performants, ni les plus transparents et encore moins les plus ouverts, mais avec ses modèles d’IA générative Nova, Amazon veut porter la couronne de l’IA multimodale pas chère.

Alors qu’Amazon aura bientôt investi 8 milliards de dollars dans Anthropic, cela ne l’empêche pas de proposer ses propres modèles de langage. L’entreprise fournissait déjà la collection de modèles multimodaux Amazon Titan à travers Amazon Bedrock. Pour rappel, Bedrock est le service managé de sa filiale cloud AWS, concurrent d’Azure AI de Microsoft et de Vertex AI de Google.

Lors d’AWS re:Invent 2024, l’entreprise a présenté une deuxième collection de six modèles d’IA générative, nommée Amazon Nova.

Celle-ci regroupe des LLM capables de comprendre et de générer du texte, des modèles de langage-vision (Vision Language Model ou VLM) qui traitent du texte, des images et des vidéos pour répondre de manière textuelle et des modèles de diffusion latente, consacrés à la génération d’images et de vidéo.

Pour l’heure, cinq modèles sont disponibles depuis la région cloud us-east-1, installée en Virginie du Nord. Amazon lancera au premier trimestre 2025 Nova Premier, le plus performant de ses VLM.

Il y a d’abord Amazon Nova Micro, le seul modèle purement textuel de la bande. Celui-ci dispose d’une fenêtre de contexte de 128 000 tokens et est capable d’en générer 5 000. Selon la documentation d’AWS, Nova Micro offre une « faible latence à des coûts très bas ». Il file à la vitesse de 210 tokens par seconde.

Nova Lite et Nova Pro sont les VLM de la collection. Ceux-là sont dotés d’une fenêtre de contexte de 300 000 tokens (jusqu’à 30 minutes de vidéo en entrée en une seule requête) et peuvent générer un texte d’une longueur maximale de 5 000 tokens. Nova Lite serait également très rapide (157 tokens/s) et peu cher, tandis que Nova Pro doit équilibrer vitesse (100 tokens/s), coût et précision.

Nova Micro, Lite et Pro peuvent traiter des fichiers contenant des données non structurées (pdf, csv, doc, docx, xls, xlsx, html, txt, md), des vidéos (MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3 GP) et comprennent et génèrent des textes dans plus de 200 langues. À ceci près qu’ils ont été optimisés pour traiter 15 langues, dont l’anglais, l’allemand, le français, le portugais, le chinois ou encore l’arabe.

Amazon tente d’égaler Google, Anthropic, OpenAI et Meta

Selon les parangonnages partagés par les chercheurs d’Amazon, les performances de Nova Pro, Lite et Micro se rapprochent des LLM concurrents, dont ceux des collections Claude 3.5 et GPT4-o, sans les battre. Ils semblent équivalents ou légèrement supérieurs aux LLM Gemini 1.5 de Google et Llama 3.1 et 3.2 de Meta. Nova Pro et Lite se distinguent sur les tâches multimodales et liées à l’agentique et jouent presque à jeu égal avec leurs concurrents.  

Nova Canvas et Reel sont des modèles de diffusion latents. Canvas génère des images de 512 par 512 pixels à 2048x2048 pixels.

À partir d’un prompt, Nova Reel engendre une vidéo d’une longueur de 6 secondes en résolution 720p (1280x720 pixels) à 24 images par seconde. C’est un concurrent de Sora, le modèle d’OpenAI qui avait fait grand bruit.

Nova Canvas et Reel sont des « diffusions transformers » incorporant un encodeur VAE (Variable Auto Encoder, ou auto-encodeur variationnel en français) – comme l’a fait Stability AI pour son modèle Stable Diffusion 2.1 avant de retourner à l’option du VAE modulaire – un encodeur de texte et une architecture transformer chargé de « débruiter » les images/vidéo générées de manière itérative.  

« Ces deux modèles ont été entraînés pour générer des images de qualité studio », affirme Stephan Hadinger, directeur de la technologie chez AWS France.

Les équipes de recherche d’Amazon présentent uniquement des taux de réussite, indiquant que Nova Canvas et Reel aligneraient davantage leur résultat aux préférences des utilisateurs sur les benchmarks TIFA et ImageReward que leurs concurrents, dont Stable Diffusion 3.5.

Sur le site Web Amazon Science, les chercheurs d’Amazon précisent que ces modèles ont été entraînés à partir de données en provenance de « diverses sources, y compris des données sous licence, propriétaires, des jeux de données libres et, dans la mesure du possible, des données accessibles publiquement ».

Amazon ne fait pas la lumière sur le volume de données utilisées lors de l’entraînement ou sur leur provenance exacte.

Un gros effort de red teaming

Le nombre de paramètres n’est pas non plus partagé par Amazon qui précise tout de même que les modèles ont été entraînés en utilisant l’infrastructure et les services d’AWS. SageMaker était « l’orchestrateur » des instances P5 (Nvidia H100), P4d (Nivia A100) et TRN1 (accélérateurs AWS Trainium) utilisées en parallèle lors de l’entraînement. Elles étaient interconnectées avec la technologie réseau d’AWS, EFA (Elastic Fabric Adapter). En revanche, les chercheurs ne mentionnent ni le nombre de puces utilisées ni l’empreinte carbone estimée de l’entraînement.

Quant aux processus d’entraînement, il est décrit succinctement en rappelant les grandes étapes de pré-entraînement et de post-entraînements spécifiques aux modèles de langage et de diffusion. Amazon détaille en revanche son processus de red teaming, en évoquant le développement et le test de 300 techniques distinctes réparties dans sept catégories.  

« Pour les attaques basées sur le texte, nous nous concentrons sur les techniques adverses pour contourner les garde-fous. Pour la compréhension des images et des vidéos, nous élaborons des contenus malveillants et explorons des vecteurs d’attaque qui intègrent des charges utiles malveillantes dans des contenus visuels apparemment inoffensifs », expliquent les chercheurs. « Nous évaluons également la résistance de notre modèle aux techniques de jailbreak, c’est-à-dire la conception de prompts qui amènent le modèle à adopter des comportements interdits ».

La promesse de l’IA multimodale pas chère

Vraisemblablement sûrs, mais peu transparents, propriétaires et pas forcément plus performants que leurs compétiteurs : les modèles Nova ont-ils leur place sur un marché déjà saturé ? Amazon et AWS ont un argument massue : le prix.

Depuis Amazon Bedrock, Nova Micro coûte 0,000035 dollar pour 1 000 tokens en entrée et 0,00014 $ pour 1 000 tokens de sortie. Nova Lite est proposé à 0,000 06 et 0,0004 dollar pour le même nombre de tokens en entrée et en sortie.

Nova Pro coûte 0,0008 dollar pour 1 000 tokens d’entrée et 0,0032 dollar pour 1 000 tokens de sortie.

À titre de comparaison, Claude 3,5 Sonnet est facturé 0,003 dollar pour 1 000 tokens en entrée et 0,015 dollar 1 000 tokens en sortie. D’un point de vue technique, il peut être comparé à Nova Pro, bien qu’en deçà du modèle entraîné par Anthropic.

Mais le premier réclame de payer 3 dollars pour 1 million de tokens en entrée et 15 dollars pour 1 million de tokens en sortie. Avec Nova Pro, ce tarif tombe à 0,8 dollar pour 1 million de tokens en entrée et 3,2 dollars pour 1 million de tokens en sortie.

« Amazon Nova Micro, Amazon Nova Lite et Amazon Nova Pro sont au moins 75 % moins chers que les modèles les plus performants dans leurs classes d’intelligence respectives dans Amazon Bedrock », affirme le géant de l’e-commerce et du cloud, dans un communiqué de presse.    

« Chaque fois que vous exécutez les modèles, cela doit être suffisamment bon marché pour vous permettre de soutenir les cas d’usage ».
Mark BeccueAnalyste principal, Enterprise Strategy Group

« Si cela se vérifie, c’est une très bonne affaire », affirme Mark Beccue, analyste principal chez Enterprise Strategy Group, une filiale d’Informa Techtarget (également propriétaire du MagIT). « Chaque fois que vous exécutez les modèles, cela doit être suffisamment bon marché pour vous permettre de soutenir les cas d’usage ».

Ce serait une difficulté en moins pour des entreprises qui ont bien compris l’intérêt de cette technologie dans certains domaines.

 Nova Canvas est facturé suivant la taille et la qualité de l’image. Une image de qualité standard d’une taille ne dépassant pas 1024 par 1024 pixels coûte 0,04 dollar, contre 0,06 dollar en qualité « premium ». L’on passe à 0,06 dollar en standard et 0,08 dollar en premium pour une image d’une résolution maximale de 2048x2048 pixels. À titre de comparaison, sur Amazon Bedrock, une image générée par Stable Diffusion 3.0 Large est facturée 0,08 dollar. OpenAI pratique des tarifs similaires avec DALL E-3.

Enfin, une seconde de vidéo générée avec Nova Reel coûte 0,08 dollar.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM