creativeneko - stock.adobe.com

« Sciences ouvertes » : Meta « libère » sous contraintes ses modèles d’IA

FAIR, le groupe de recherche du géant des réseaux sociaux a présenté trois projets consacrés à la génération de textes, d’images et de sons. Selon Joëlle Pineau, vice-présidente de la recherche en IA chez Meta, l’entreprise maintient l’ouverture de ses modèles. Dans les faits, elle y appose, la plupart du temps, des restrictions d’usage et commerciales.

Fundamental AI Research (FAIR) est le groupe de recherche en sciences ouvertes du géant des réseaux sociaux. Il compte entre 500 et 600 personnes en Europe et en Amérique du Nord et se consacre à la résolution de problèmes fondamentaux dans le domaine de l’IA.

FAIR a récemment publié plusieurs artefacts de recherche qui, espère-t-il, permettront à la communauté des chercheurs d’innover, d’explorer et de découvrir de nouvelles façons d’appliquer l’IA à grande échelle.

En ce qui concerne le rôle de FAIR dans les activités du géant des médias sociaux, Joëlle Pineau, vice-présidente de Meta, responsable de la recherche sur l’IA, déclare : « Nous ne sommes pas nécessairement l’équipe qui intègre ces innovations dans les produits. Nous nous concentrons sur la résolution des problèmes d’IA ».

Le rôle de FAIR au sein de Meta

FAIR partage publiquement une partie de ses recherches ainsi que ses bases de code, ses ensembles de données, ses modèles, ses recettes d’entraînement et ses guides de sécurité. Alors que le groupe se concentre sur l’innovation fondamentale, la recherche est partagée en interne avec l’équipe de recherche appliquée de Meta qui, selon la vice-présidente, prend le modèle et détermine comment passer d’un concept comme Chameleon, à un produit.

« Au fil des ans, un certain nombre de nos innovations ont été intégrées dans des produits », explique Joëlle Pineau. « Si vous avez vu les lunettes Meta – des lunettes intelligentes –, le modèle d’intelligence artificielle qu’elles utilisent est issu de nos recherches. Le premier modèle de Llama est issu de notre laboratoire de recherche. Mais comme les Llama 2 et 3 sont axés sur les produits, ils sont développés par l’équipe d’IA générative [GenAI] de Meta, qui est davantage une équipe de recherche appliquée. »

Chameleon : Meta veut uniformiser le traitement des textes et des images

Parmi les artefacts de recherche présentés par FAIR, il y a d’abord les LLM Chameleon.

Au lieu de séparer leur traitement à la manière des autres modèles multimodaux tels que Gemini, Chameleon utilise la tokenisation pour le texte et les images depuis un seul encodeur/décodeur. L’architecture du modèle dense Llama 2 a été modifiée pour mieux prendre en charge des tokens représentant deux types de média différents. Les chercheurs ont en revanche entraîné deux tokenizers distincts. Pour rappel, un tokenizer divise les mots ou documents en séquences de caractères, appelés tokens (ou jetons). Le premier est consacré à la représentation d’images de 512x512 pixels en séquence de 1 024 tokens. Le second traite les textes et est doté d’une taille de vocabulaire d’environ 65 000 tokens. Dans le cas présent, une fois représentées sous forme de tokens, les entrées sont traitées par le même décodeur.

Selon l’entreprise, cela permet une approche plus unifiée et rend le modèle plus facile à concevoir, à maintenir et à mettre à l’échelle. Les domaines d’application comprennent la génération de description d’images ou l’utilisation d’un mélange d’invites textuels et d’images (prompts) pour créer une scène entièrement nouvelle.

Dans le cas de Chameleon, Joëlle Pineau explique que le modèle utilise du texte et des images pour raisonner sur des propriétés spécifiques. « Nous avons entraîné Chameleon pour qu’il atteigne une taille de 30 milliards de paramètres, ce qui est beaucoup moins que, par exemple, des modèles comme Llama, GPT, etc. Mais nous avons une preuve de concept qui fonctionne jusqu’à une certaine taille ». 

« Les équipes de recherche appliquée ont la possibilité d’augmenter l’échelle ou de la faire fonctionner avec d’autres types de données et sous d’autres contraintes », ajoute-t-elle.

Actuellement, Chameleon est disponible en deux variantes dotées respectivement de 34 milliards et de sept milliards de paramètres et d’une fenêtre de contexte de 4 000 tokens. Ils ont été entraînés avec 4 400 milliards de tokens, contre 2 000 milliards de tokens pour Llama 2. Au total, Chameleon a vu passer près de 10 000 milliards de tokens à l’entraînement.

Vers des LLM capables de prédire plusieurs tokens simultanément

Le deuxième élément de recherche, que Meta vient de rendre publique, est une nouvelle approche de la prédiction. La plupart des grands modèles de langage (LLM) modernes ont un objectif d’entraînement simple : prédire le mot suivant. Bien que cette approche soit simple et évolutive, Meta affirme qu’elle est également inefficace. Elle nécessite plusieurs ordres de grandeur de texte en plus que ce dont les enfants ont besoin, pour apprendre le même degré de maîtrise de la langue.

Joëlle Pineau explique que la prédiction multitoken a été directement inspirée par les travaux sur la génération de codes. « Il est possible de générer de nombreux jetons de manière structurée, et pas seulement de manière linéaire », assure-t-elle.

« Alors que les LLM classiques génèrent un mot après l’autre et produisent une linéarisation des jetons de sortie, pour le code, de nombreuses personnes n’écrivent pas un jeton à la fois. Vous écrivez la structure du code, puis vous écrivez certaines des sous-structures, vous résolvez les détails en matière de structures, et vous allez et venez à différents niveaux d’abstraction au fur et à mesure que vous construisez le code ».

Ceci, ajoute-t-elle, est beaucoup plus complexe que l’approche linéaire utilisée dans les LLM. La technique de prédiction multitoken s’avère pour l’heure plus efficace pour la génération de code et la complétion de problèmes mathématiques.

Sciences ouvertes… sous conditions

Lorsque ComputerWeekly, publication sœur du MagIT, lui demande s’il existe une place pour les modèles d’IA propriétaires, Joëlle Pineau estime qu’un modèle d’IA devrait être ouvert lorsque des garanties sont en place pour s’assurer qu’il n’entraîne pas de risque excessif.

« Dans le cas de notre modèle Chameleon, nous avons choisi, après une analyse des risques, de ne pas divulguer les capacités de génération d’images », explique-t-elle. « Le modèle est capable de générer des images, mais nous avons estimé que les mesures de sécurité n’étaient pas suffisamment mûres ».

Bien que Meta donne accès à la documentation et aux checkpoints finaux de ses modèles Chameleon, ils sont en réalité protégés par une licence propriétaire permissive nommée Chameleon Research Licence. Celle-ci empêche tout usage commercial et restreint le champ d’utilisation des deux LLM. La même chose est vraie pour le modèle de prédiction multitoken.

Ici, le géant des réseaux sociaux applique la recette de Google, alors qu’il se montrait plus enclin à partager son travail jusqu’alors.

Un autre modèle développé par FAIR, qui a fait l’objet d’une publication, mais n’a pas été rendu public, est celui de la synthèse vocale. « En quelques secondes d’enregistrement de la voix d’un individu, nous pouvons essentiellement générer un discours qui imite la voix d’une personne au point d’être trompeur », relate Joëlle Pineau.

Dans ce cas, elle explique qu’il n’existe pas d’outils d’authentification permettant de distinguer la voix générée par l’IA de l’enregistrement vocal authentique. Cependant, Meta a mené des recherches sur l’authentification, et elle indique que la technique de filigrane d’AudioSeal a d’abord été partagée avec une petite cohorte de chercheurs universitaires afin que le modèle soit examiné par des tiers. AudioSeal a été conçu spécifiquement pour la détection localisée de la parole générée par l’intelligence artificielle. Si l’équipe de FAIR a un temps retenu l’accès à son modèle parce qu’il n’était pas prêt pour des usages en production, le groupe de recherche a mis à jour la licence des poids et de certains actifs, comme le code nécessaire à son affinage afin de le proposer sous licence open source MIT. Ici, AudioSeal peut être utilisé dans un cadre commercial.

Bien que les nouveaux modèles d’IA publiés par Meta soient accessibles, Joëlle Pineau indique qu’il y a une courbe d’apprentissage raisonnable pour comprendre comment les faire fonctionner. Mais les personnes qui utilisent régulièrement des modèles, tels que ceux disponibles via Hugging Face, devraient être en mesure de les déployer relativement facilement.

« Nous avons des gens qui prennent un modèle tel que Llama et le peaufinent, et dans les 48 heures, une version affinée est disponible et apparaît dans certains classements [de modèles d’IA] », dit-elle. « Cela dépend vraiment de votre niveau de compétence ».

Il n’est pas nécessaire de disposer d’un équipement haut de gamme pour commencer. Elle précise que dans certains cas, les modèles sont disponibles en différentes tailles : les plus petits modèles peuvent fonctionner avec un seul GPU et sont plus faciles à utiliser. « Les modèles plus grands requièrent davantage de connaissances en matière de systèmes distribués afin d’obtenir le niveau de performance requis », prévient Joëlle Pineau.

Pour approfondir sur Open Source