Google DeepMind tire le bilan de l’expérience Gemma 2

Tous les fournisseurs de LLM présentent – plus ou moins longuement – leurs projets à leur lancement. Les bilans sont moins nombreux. C’est pourtant ce qu’a esquissé Armand Joulin, principal scientist chez Google DeepMind lors de la conférence DotAI, au sujet des modèles Gemma 2.

Pour rappel, les activités de recherche consacrées à ses modèles « open weight » – les collections estampillées de l’appellation Gemma – sont dirigées à Paris.

Armand Joulin est revenu plus particulièrement sur le cas de Gemma 2 pour clarifier certains points clés de l’entraînement des LLM éponymes.

D’emblée, il pose l’esprit communautaire qui anime ce projet. « La principale raison pour laquelle nous avons ouvert ces modèles, c’est que la plupart des développeurs utilisent les technologies open source », souligne-t-il. « Nous ne voulons pas que seuls quelques acteurs dominent et guident l’évolution de l’intelligence artificielle ».

Pour rappel, Gemma 2 rassemble trois modèles de base et ses variantes instruites dotés respectivement de 27 milliards, 9 milliards et 2,6 milliards de paramètres

Ces nombres ne sont pas le fruit du hasard. « Ces tailles ont été choisies parce que nous visions différentes plateformes dont nous savions que les développeurs d’IA aimeraient disposer : des appareils mobiles, des ordinateurs portables, et des machines dotées d’un seul GPU haut de gamme », note-t-il.

L’art de distiller les connaissances

L’un des principaux défis pour Google Deepmind était justement d’entraîner de plus petits modèles.

Le chercheur rappelle les deux phases distinctes lors de l’entraînement d’un grand modèle de langage : le préentraînement et le post-entraînement.

« La phase de préentraînement est la plus coûteuse. C’est à ce moment-là que l’on passe en revue des dizaines de milliers de milliards de tokens eux-mêmes sélectionnés à partir de toutes les informations disponibles sur Internet », résume Armand Joulin.

Dans cette phase, il s’agit de demander à partir d’un texte à trou de prédire le mot suivant. Par exemple, on prend la phrase « le chien est » et on demande au modèle de deviner le mot suivant, par exemple « petit, brun, blanc, arbre, etc. Parmi tous ces mots, le modèle doit effectuer une prédiction, c’est-à-dire déterminer quel est le mot le plus probable suivant la première partie de la phrase », indique-t-il.

« Ensuite, on compare avec la vérité, c’est-à-dire le mot réellement présent dans le texte ». Si ce mot est « brun », il convient d’ajuster la probabilité pour donner plus de poids à « brun ». « Comme la somme des probabilités doit faire 1, on pousse en même temps les autres probabilités vers 0. Mais cela ne semble pas totalement juste », poursuit-il.

« Le chien est petit » peut être une proposition valable, tandis que le « chien est bleu » est une phrase de prime abord plus absurde, qui ne serait pas choquante dans un livre pour enfant (« chien bleu » est d’ailleurs le titre d’un album jeunesse), mais « chien bleu » est aussi le nom d’un bouvier d’origine australienne.

« La vérité n’est pas la meilleure réponse ».
Armand JoulinPrincipal scientist, Google Deepmind

« C’est l’une des erreurs que nous pouvons faire au moment d’entraîner un LLM : la vérité n’est pas la meilleure réponse. Cela peut mener à des erreurs et pousser les choses dans de mauvaises directions », nuance Armand Joulin.

L’usage d’une technique de distribution des probabilités est une solution optimale.

Idéalement, il faudrait pouvoir attribuer un score à chaque proposition terminant la phrase « le chien est… ». Cette technique n’est pas vraiment exploitable. « Le texte utilisé lors de l’entraînement n’est qu’une approximation de cette distribution idéale », assure Armand Joulin. En clair, il n’est pas évident de produire suffisamment de texte pour représenter la complexité « du monde ».

Ce serait la raison pour laquelle les fournisseurs de modèles se sont longtemps concentrés sur la vérité terrain. Une alternative s’est cependant développée ces dernières années : la distillation de connaissances (knowledge distillation).

« Avec Gemma, nous utilisons un modèle bien plus grand, entraîné sur une immense quantité de texte, ce qui lui a permis d’acquérir une profonde compréhension du monde », indique Armand Joulin. Ce dernier ferait la taille d’un modèle équivalent à Gemini ou GPT-4. « Nous intégrons ce modèle pour qu’il génère des probabilités sur certaines informations. Étant donné que ce modèle est performant et produit du texte de qualité, il représente probablement une meilleure approximation de cette distribution que celle obtenue par du simple texte ».

Si cette approche n’est pas parfaite, elle a le mérite d’ouvrir le champ des possibles. Elle offre d’autres avantages appréciés des chercheurs en IA.

Quand les modèles n’apprennent plus

« Avec ce type de méthode, le comportement pendant l’entraînement change : le modèle va chercher à ajuster les probabilités de manière plus modérée. Cela permet un apprentissage plus rapide et plus efficace », avance Armand Joulin. « C’est particulièrement important pour les petits modèles, car ils mettent généralement beaucoup de temps à converger, et après un certain nombre de tokens, ils cessent souvent d’apprendre ».

Malgré cette approche, cette dernière affirmation reste vraie. Ainsi, selon le chercheur, DeepMind n’a pas sélectionné un nombre arbitraire de tokens à l’entraînement, mais a considéré que Gemma 2-27B n’apprendrait plus après 13 000 milliards de tokens, que Gemma 2-9B s’arrêterait d’apprendre après 8 000 milliards de tokens et qu’il suffirait de 2 000 milliards de tokens pour saturer les poids qui animent Gemma 2-2.6B. « Après ces seuils, augmenter le nombre de tokens n’apporte pratiquement aucun gain », juge-t-il. Il serait possible d’augmenter ces volumes avec quelques optimisations, mais la limite de 15 000 milliards de tokens semble un maximum pour le plus grand modèle.

La distillation des connaissances a également été utilisée lors du post-entraînement, afin « d’aligner les modèles avec les préférences humaines ».

« Je n’entrerai pas dans les détails, mais nous avons utilisé un “professeur” qui est aussi un plus grand modèle pour guider les réponses d’un plus petit modèle appelé “élève” », évoque le chercheur. « La seule différence ici, c’est qu’au lieu de modifier un texte existant – comme on le fait lors d’un post-entraînement en vérifiant comment un modèle répond aux questions – nous laissons le modèle “élève” répondre aux questions, puis le modèle “enseignant” corrige [annote N.D.L.R.] ses réponses ».

Apprendre à doser le « garbage-in » pour limiter le « garbage-out »

Les questions de l’éthique et de sécurité ont évidemment été traitées par les équipes de DeepMind. En ce sens, il fournit deux conseils à ceux qui souhaiteraient entraîner et fine-tuner un LLM, deux étapes clés qu’il ne faut pas rater. La première est la sélection des données. « Lorsque l’on entraîne des modèles, l’on a tendance à utiliser un maximum de données disponibles, quelle qu’en soit la source. Mais le problème, c’est que ce que vous donnez au modèle, il va l’apprendre », rappelle Armand Joulin. C’est le très vieux principe représenté par la fameuse expression « garbage-in, garbage-out ». Mais il y a un mais.

« Vous ne voulez pas non plus supprimer toutes les données de mauvaise qualité, car le modèle doit aussi apprendre à reconnaître ce qui est mauvais ».
Armand JoulinPrincipal scientist, Google Deepmind

« Cela dit, vous ne voulez pas non plus supprimer toutes les données de mauvaise qualité, car le modèle doit aussi apprendre à reconnaître ce qui est mauvais », souligne le chercheur. « Il faut donc trouver un équilibre en sélectionnant suffisamment de données de qualité pour éviter que le modèle soit peu performant ». C’est également l’étape pendant laquelle les chercheurs de Google DeepMind retirent les données non compatibles avec un modèle doté d’une licence ouverte compatible avec les usages commerciaux.

La deuxième étape, et c’est sans doute « la plus cruciale » selon le chercheur, concerne la phase d’alignement sur les préférences humaines.

« Habituellement, pour construire un ensemble de données d’alignement, on fait tester le modèle en lui posant des questions délicates pour voir comment il répond, puis on annote et corrige les réponses problématiques », rappelle-t-il.

« Il existe une solution simple qui donnerait l’impression que le modèle est très sûr : qu’il ne réponde jamais à rien. Ce n’est pas la solution ».

L’enjeu consiste donc à trouver un équilibre pour garantir la sécurité du modèle tout en le rendant utile, ce qui est difficile à atteindre, insiste Armand Joulin. Et si le modèle commet encore des erreurs, s’il hallucine, Google DeepMind a prévu une série d’outils, dont ShieldGemma, un des classificateurs proposés par le géant du cloud afin de contrôler les réponses ou interdire leur livraison aux utilisateurs finaux.

Gemma 2, mission accomplie (ou presque)

Concernant Gemma 2, Google DeepMind estime avoir accompli sa mission. En juillet 2024, les LLM Gemma 2 affichaient des scores élevés au benchmark Chatbot Arena (ex-LMSYS). Gemma 2-9B et 2-2.6B se sont fait remarquer par leur efficience.

Gemma 2 comptabilise plus de 20 millions de téléchargements depuis HuggingFace en moins de six mois. Le laboratoire de recherche n’a pas intégré les données d’autres dépôts communautaires.

Au moment d’écrire ces lignes, la version instruite de Gemma 2-27B occupe encore la 37e place du classement Chatbot Arena… à égalité avec une variante de Gemma 2-9B Instruct fine-tunée par des chercheurs de l’Université de Princeton.  

« Depuis la sortie de la collection, de nombreux autres modèles et outils, basés sur notre travail, ont vu le jour », note Armand Joulin. « Si vous allez sur la plateforme HuggingFace et que vous tapez “Gemma”, le premier résultat n’est même pas notre modèle. Plusieurs de ces LLM ont même dépassé les nôtres en matière de performance, ce qui, bien que légèrement frustrant, fait partie de l’esprit de l’open source : donner à la communauté la possibilité d’améliorer nos modèles ».

Les cas d’usage les plus courants des modèles Gemma 2 concernent le « role-play », c’est-à-dire la capacité des LLM à endosser un rôle, mais aussi à reproduire des connaissances, une capacité héritée grâce à la distillation. En revanche, Armand Joulin estime qu’il y a certains domaines où il est possible d’améliorer les modèles Gemma, notamment pour qu’ils génèrent des éléments de code plus pertinent. « Nous essayons d’ajouter les capacités les plus réclamées par la communauté des développeurs ». Ces points sont déjà sur la liste des choses à faire de Gemma 3. Le travail aurait déjà commencé.

Google DeepMind n’étudie pas encore le sujet. Cependant, le chercheur principal estime que l’entraînement de modèles plus petits, mais plus spécialisés interconnectés pourrait apporter de meilleures réponses que la distillation de connaissances à partir d’un plus grand LLM. « Ce n’est pas la direction prise par la plupart des laboratoires de recherche », signale-t-il.

D’autant qu’il reste encore beaucoup de choses à découvrir concernant les « professeurs » et les « élèves ». Par exemple, il n’y a pas de consensus concernant la taille des modèles servant à entraîner un autre LLM. Certains chercheurs ont déterminé que, suivant la tâche à accomplir, des modèles professeurs plus petits peuvent être plus efficaces. C’est notamment le cas au moment de traiter des images, un domaine où la technique semble plus étudiée. D’autres tentent d’exploiter plusieurs professeurs incarnés par de plus petits LLM.

Pour approfondir sur Open Source