Llama 3.2 : Meta prive l’Union européenne de ses modèles multimodaux
En bloquant l’accès à ses modèles multimodaux en Union européenne, Meta ébrèche son image de défenseur de l’innovation ouverte au nom d’une « absence de règles cohérentes » concernant l’usage des « données européennes » pour entraîner des modèles d’IA.
Meta a présenté Llama 3.2, une collection de grands modèles de langage (LLM) « open weights » divisée en deux parties.
D’un côté, il y a quatre modèles multimodaux, plus particulièrement des modèles de vision (Vision Language Model ou VLM) dotés de 11 et 90 milliards de paramètres capables de produire du texte avec une image et du texte en entrée.
De l’autre, Meta propose des petits modèles de langage (SLM) de 1,23 et 3,21 milliards de paramètres.
Les huit LLM (en comptant les versions instruites) disposent d’une fenêtre de contexte de 128 000 tokens. Leur base de connaissances est arrêtée au mois de décembre 2023.
Le fournisseur a également revu Llama Guard à l’aune de ses nouveaux LLM.
Llama sur mobile
Alors que les fleurons de la précédente collection ne pouvaient s’exécuter que sur de gros clusters GPU, Llama 3.2-1B et 3B ont été optimisés pour s’exécuter sur les SoC Qualcomm et MediaTek, basés sur des puces ARM. En clair, Meta s’intéresse à l’inférence sur mobile.
Outre la possibilité de déployer des agents dans des applications mobiles, Meta explique que ces SLM peuvent maintenir les données confidentielles. Les entrées sont traitées localement, à l’aide du SoC d’un smartphone ou d’une tablette. Comme Samsung le fait déjà, le géant des réseaux sociaux imagine que les requêtes qui demandent un traitement plus élaboré peuvent être confiées à un LLM hébergé dans le cloud.
Pour autant, les deux modèles sont encore encodés en BFloat 16, un format davantage adapté à des GPU de pleine taille. Les chercheurs doivent encore proposer des versions compressées (« quantisées »).
Selon Meta, ces SLM égalent ou dépassent dans certaines tâches les variantes instruites de Gemma 2 2B de Google et Phi-3.5 mini de Microsoft.
Pour ce faire, Meta a exploité des techniques de pruning et de distillation de connaissances à partir de Llama 3.1-8B. Résultat, Llama 3.2-1B pèse 438 Mo, contre 2,85 Go pour Llama 3.1-8B.
Le fournisseur a, entre autres, utilisé des données synthétiques et des sorties-références générées par Llama 3.1-8B et 70B. Au total, il a utilisé 9 000 milliards de tokens.
En phase de post-entraînement, il a exploité une méthode bien connue des fournisseurs de LLM (fine-tuning supervisé, rejet d’échantillons, Direct preference Optimization).
VLM : se mettre au niveau d’Anthropic, d’OpenAI et de Mistral AI
Quant au sujet de la multimodalité, Anthropic, OpenAI ou encore Mistral AI ont pris de l’avance. Le géant des réseaux sociaux devait montrer qu’il peut lui aussi réussir dans cet exercice.
Pour cela, Meta a revu ses pipelines d’entraînement en faisant varier la qualité des images en entrée. Il a surtout développé un encodeur séparément de la base de son modèle textuel à l’aide de poids adaptateurs.
« Nous avons formé un ensemble de poids adaptateurs qui intègrent l’encodeur d’image préentraîné dans le modèle de langage », expliquent les chercheurs. « L’adaptateur se compose d’une série de couches d’attention croisée qui introduisent les représentations de l’encodeur d’images dans le modèle de langage ».
Les VLM ont été entraînés avec 6 milliards de paires de texte/image « afin d’aligner les représentations de l’image sur les représentations du langage ».
Résultat dans les benchmarks présentés par Meta, Llama 3.2-90B fait presque jeu égal avec GPT4o-mini et passe devant Claude 3 Haiku, tandis que Llama 3.2-11B se rapproche très fortement de Claude 3 Haiku. Reste à vérifier les dires du groupe américain.
Llama Stack : Meta se professionnalise
Plus intéressant pour les entreprises, le fournisseur a présenté LLama Stack, une suite de spécifications et d’API pour « entraîner, fine-tuner, bâtir et déployer des agents d’IA en production ». Il s’agit de « simplifier le travail des développeurs avec des modèles Llama dans différents environnements », peu importe s’ils sont déployés sur un seul nœud, dans le cloud, sur site ou sur mobile (via PyTorch ExecuTorch).
Ces spécifications couvrent pour l’instant les usages liés à l’inférence, à la sûreté, à la mise en cache des résultats, au système agentique, à l’évaluation, au post-entraînement, à la génération de données synthétiques et à l’attribution de récompenses.
Meta prévient que tous les composants ne sont pas disponibles. Des fournisseurs, dont Meta, Fireworks, Ollama, Together AI, AWS avec Amazon Bedrock, les contributeurs de Chroma ou encore de PG Vector (un module de PostgreSQL) proposent des API qui couvrent tout ou partie des cas d’usage référencés plus haut.
Llama Stack comprend également des distributions, c’est-à-dire une suite d’API et d’outils cohérente consacrée aux LLM Llama.
Parmi les outils, Meta liste un CLI dédié, la prise en charge du code Python, nodejs, Kotlin et Swift, des conteneurs Docker pour le déploiement des LLM et des agents.
Pour l’instant, Meta et Dell sont les deux seuls acteurs à fournir une distribution, mais le géant des réseaux sociaux dit travailler avec Infosys, AWS, Databricks, Fireworks et Together AI pour rendre accessible LLama Stack plus largement.
Réunir l’écosystème et un ensemble cohérent d’outils était nécessaire pour Meta. Ce qu’il a commencé à faire en juillet. En août, il rapportait que les modèles Llama ont été téléchargés plus de 350 millions de fois, soit dix fois plus qu’à la même période l’année dernière. Aussi et surtout, OpenAI, Anthropic ou Mistral AI ont déjà effectué ce travail.
Les modèles Llama 3.2 sont ou seront disponibles auprès d’AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, Nvidia, Oracle Cloud, Snowflake « et d’autres ».
L’innovation ouverte à géographie variable
Néanmoins, la disponibilité limitée de Llama 3.2 marque d’une pierre blanche le bras de fer engagé par Meta avec les régulateurs européens.
Comme le groupe l’envisageait dans une lettre ouverte publiée la semaine dernière, les modèles multimodaux Llama 3.2-90B et 11B ne sont pas accessibles dans les pays membres de l’Union européenne. Alors qu’il se présente comme le fervent partisan de l’open source, il atteste à travers sa politique d’usage que sa licence permissive est propriétaire et qu’il peut bien faire ce que bon lui semble. Une interdiction qu’il ne s’afflige pas à lui-même ni aux entreprises extraeuropéennes qui déploieraient les LLM dans leurs applications.
« En ce qui concerne les modèles multimodaux inclus dans Llama 3.2, les droits accordés en vertu de la section 1 (a) de l’accord de licence communautaire de Llama 3.2 ne vous sont pas accordés si vous êtes une personne physique domiciliée ou une société dont le siège social se trouve dans l’Union européenne », lit-on dans la politique d’usage acceptable.
« Cette restriction ne s’applique pas aux utilisateurs finaux d’un produit ou d’un service qui intègre de tels modèles multimodaux ».
Pour rappel, la section 1 (a) de la licence communautaire accorde « une licence limitée, non exclusive, mondiale, non transférable et sans redevance, sous la propriété intellectuelle de Meta ou d’autres droits détenus par Meta incarnés dans les Matériaux Llama, pour utiliser, reproduire, distribuer, copier, créer des œuvres dérivées des Matériaux Llama et y apporter des modifications ».
Au passage, sur son site Llama.com et sur HuggingFace, Meta conditionne le téléchargement des modèles à la collecte des données personnelles des utilisateurs des modèles LLama 3.2 (y compris ceux des LLM textuels) en réclamant leur nom, prénom, date de naissance, pays de résidence, affiliation et rôle. Les données sont traitées « en accord avec la politique de confidentialité de Meta ».
Meta remet la faute sur le RGPD
Meta n’est pas le seul à bloquer l’accès à ses technologies d’IA en Europe. C’est également le cas d’Apple (Apple Intelligence) et d’OpenAI (le module Voice de ChatGPT).
Sur X et LinkedIn, certains voient déjà les effets nocifs d’une législation trop restrictive, alors que rien n’empêche actuellement Meta – hormis le RGPD s’il a utilisé les images des usagers européens de Facebook et Instragram sans leur consentement – de publier ses modèles en Europe.
La documentation sur Hugging Face mentionne l’exploitation d’images « disponibles publiquement » sans en indiquer les origines. Dans sa politique de confidentialité accessible via Facebook et Instagram, Meta explique qu’il peut utiliser les informations publiques des usagers (nom, pseudo, photo de profil, activités, avatars) « pour développer et améliorer les modèles d’IA générative destinés aux fonctionnalités et expériences de l’IA de Meta ».
Une pratique qui n’aurait pas cours en UE. « À la suite de commentaires émis par des organismes de régulation, nous reportons la modification de notre utilisation de vos informations afin de développer et d’améliorer l’IA chez Meta », lit-on depuis le centre de confidentialité d’Instagram. « Nous vous tiendrons au courant avant de commencer à utiliser vos informations. Nous vous expliquerons également comment vous pouvez exercer votre droit d’opposition ».
En outre, l’AI Act est entré en vigueur, mais ses dispositions ne sont pas effectives tant que le bureau européen de l’IA ne les a pas implantées. Leur taille et le temps de calcul nécessaire pour entraîner ses LLM multimodaux semblent indiquer que Meta n’a pas dépassé la limite de puissance de calcul théorique inscrite dans l’AI Act (10^25 FLOPS). Ces grands modèles de langage ne semblent donc pas représenter un « risque systémique ».
Dans un même temps, un acteur européen pourrait très bien s’appuyer sur Llama 3.1 ou un autre LLM « open weight » et y intégrer un encodeur pour entraîner un VLM tout en respectant les règles de l’UE. Est-ce une invitation ?