Cet article fait partie de notre guide: IA générative : les grandes catégories de LLM

« Un saut générationnel » : Google présente son LLM étendard Gemini 1.5 Pro

Google présente (déjà) le lancement de la collection de modèles d’IA multimodale Gemini 1.5. Ces LLM seront capables d’ingérer de très longs textes, fichiers audio et vidéo. « Oui, mais pour quels cas d’usage ? » se demandent en substance les analystes.

Une semaine après le renommage de Bard et de Duet AI en Gemini pour « fêter » la disponibilité de Gemini Ultra 1.0 et de Gemini Advanced, Google lance Gemini 1.5. Le géant du cloud commence par lancer Gemini 1.5 Pro, disponible en préversion privée et limitée dans Vertex AI et AI Studio. Un modèle dont Google cache encore une fois les principales caractéristiques, comme un « runner » automobile ne dévoilerait pas la puissance de son bolide au moteur survitaminé. Les équipes de R&D peuvent toutefois communiquer sur une caractéristique : la longueur de la fenêtre de contexte.

Pour rappel, la fenêtre de contexte correspond à la quantité d’unités lexicales – des tokens – qu’un grand modèle de langage peut traiter en entrée et à sa « mémoire » à court terme. Les modèles de la collection Gemini 1.0 prenaient en charge jusqu’à 32 000 tokens. Une taille désormais répandue sur le marché.

Gemini 1.5 Pro fait monter les enchères jusqu’à 128 000 tokens, à égalité avec les modèles GPT-4 Turbo et derrière Claude 2.1 d’Anthropic, et ses 200 000 tokens. Toutefois, Google annonce qu’il dispose d’un mode expérimental accessible gratuitement pour un nombre restreint de clients permettant d’atteindre 1 million de tokens en entrée… soit l’une des plus grandes fenêtres de contexte disponible à ce jour.

Selon Google, cela représente « 1 heure de vidéo, 11 heures d’audio, des bases de plus de 30 000 lignes de code ou plus de 700 000 mots ». Un marketing digne d’un fabricant de lecteurs MP3.

Blague à part, il s’agit là d’un exploit technique indéniable. Comment est-ce possible ? Si Google ne donne pas la puissance de son moteur – et considère que Gemini 1.5 Pro est de taille « moyenne » –, il en donne au moins la forme.

Une fenêtre de contexte pouvant atteindre 10 millions de tokens (~7 millions de mots)

Actuellement, dans le domaine de l’IA, il n’est pas question de V8 ou V12, mais de Mixture of Experts (MoE). Dans le cas de Gemini Pro 1.5, c’est la technique Sparse Mixture of Experts (SMoE) qui a été retenue. Cette approche consiste à spécialiser certains éléments d’un réseau de neurones dans le traitement de tâches subalternes. En clair, un groupe de paramètres est « expert » d’un domaine, au lieu que l’ensemble des paramètres soient utilisés pour toutes les entrées.

Ces entrées – dans le cas présent du texte, des images, des vidéos – sont routées vers le ou les bons groupes d’experts, à l’aide d’une couche de poids et de fonctions nommée simplement « routeur ». La technique SMoE apporte principalement une forme d’efficience à l’entraînement et à l’inférence, ce qui permet de réduire considérablement la puissance de calcul nécessaire lors de ces deux étapes. C’est l’approche privilégiée par la startup française Mistral, dont le modèle Mixtral est formé en réalité de huit groupes d’experts dotés chacun de 7,3 milliards de paramètres, la taille du modèle que le jeune éditeur avait présenté quelques mois après sa naissance.

De leur côté, les chercheurs de Google explorent différentes variantes de la technique MoE (Sparsely Gated MoE, GShard Transformer, Switch Transformer) depuis 2017, rappelle Sundar Pichai, PDG de Google, dans un communiqué.

Or, dans le cas de Gemini 1.5 Pro, les chercheurs de Google DeepMind n’hésitent pas à parler de « saut générationnel » par rapport aux LLMs actuellement disponibles. Rien que ça.

La fenêtre de contexte maximale de 1 million de tokens est en réalité une limite établie en production. Au stade de la recherche, Google Deepmind a poussé les potards jusqu’à obtenir une fenêtre de contexte de 10 millions de tokens « sans dégrader les performances » de son modèle. Cela représente jusqu’à 7 millions de mots. Les tests menés par Google DeepMind lui ont permis de traiter « confortablement » les 1 440 pages de Guerre et Paix, la base de code de son framework Flax (41 070 lignes) ou encore 22 heures d’enregistrements audio.

Par-dessus le marché, « Gemini 1.5 Pro surpasse Gemini 1.0 Pro et obtient des résultats similaires à ceux de Ultra 1.0, sur un large éventail de critères de référence, tout en nécessitant beaucoup moins de calculs pour l’entraînement », écrivent-ils dans le rapport technique qui accompagne la sortie du modèle.

Google se garde bien de dévoiler sa recette

La longueur de la fenêtre de contexte n’est pas uniquement liée à l’architecture SMoE. Selon les chercheurs de Google, de nouvelles architectures, des modifications post-entraînement, des modèles de recherche augmentée (Retrieval augmented models), l’augmentation de la mémoire, et l’agrandissement des jeux de données de qualité sont autant de techniques évaluées par le monde de la recherche qui contribuent à l’augmentation de la fenêtre de contexte des LLMs.

Jusqu’alors, chez Google, c’est la longueur du document en entrée utilisée à l’entraînement et les modifications du mécanisme d’attention du Transformer qui ont permis d’augmenter cette fenêtre de contexte. En décembre 2023, Google Research a mis à jour l’article consacré à la technique Grouped Query Attention (GQA), qui permet d’atteindre les performances du mécanisme d’attention multitête (MHA) avec l’efficience du mécanisme Multi Query Attention (MQA). Le mécanisme GQA est utilisé par Meta pour Llama 2 (dont le fonctionnement est expliqué dans l’article en lien) et par Mistral.

Comme cette approche a d’abord été étudiée pour diminuer la consommation de mémoire d’un LLM, la startup française Mistral précise qu’elle y a adjoint une fenêtre d’attention glissante (Sliding Window attention) pour allonger la fenêtre de contexte. D’autres chercheurs ont misé sur la méthode RoPE (Rotary Position Embeddings) –, qui permet de réduire la consommation de mémoire et l’interdépendance des mots au fur et à mesure qu’ils sont distants dans un texte – et le mécanisme Ring Attention. Ils ont pu obtenir une fenêtre de contexte de 1 million de tokens avec un modèle de seulement 7 milliards de paramètres.

Dans le rapport technique de Gemini 1.0, les chercheurs n’indiquaient pas précisément l’approche choisie, mais évoquaient l’usage « de mécanismes d’attention », au pluriel. Dans le document consacré à Gemini Pro 1.5, les chercheurs se limitent à affirmer que « de nombreuses améliorations ont été apportées à la quasi-totalité de la pile de modèles (architecture, données, optimisation et systèmes) » et que Gemini 1.5 Pro est dérivé de la collection Gemini 1.0.

Comme ses prédécesseurs, Gemini 1.5 Pro est entraîné à l’aide de plusieurs pods, contenant chacun 4 096 puces TPUv4 et répartis sur plusieurs centres de données.

« Notre ensemble de données de préentraînement inclut des données provenant de nombreux domaines différents, y compris des documents web et du code, et incorpore du contenu image, audio et vidéo », poursuivent les chercheurs.

« Pour la phase d’ajustement des instructions, nous avons affiné (fine-tuné) Gemini 1.5 Pro sur une collection de jeux de données multimodales (contenant des instructions appariées et des réponses appropriées) ».

Bref, pas de surprise. En revanche, DeepMind évoque un nouveau défi : les résultats des tests présentés dans le rapport sont issus de parangonnages, revus et corrigés en fonction de trois critères (quantité, qualité et multimodalité). Les benchmarks existants ne seraient pas adaptés à la longueur de la fenêtre de contexte du LLM multimodal.

« Comme les exigences d’évaluation des modèles de frontière (sic) requièrent de plus en plus de benchmarks à la fois longs et complexes, les tâches d’étiquetage et d’annotation humaines deviendront nettement plus coûteuses et prendront plus de temps », prédisent les chercheurs de Google. « Cela pose un défi supplémentaire aux méthodes d’évaluation traditionnelles qui s’appuient fortement sur l’évaluation manuelle ».

Toutefois, avec les récents développements de Gemini, Google prend l’avantage technique face à ses concurrents, selon Gartner.

« C’est maintenant Google qui donne le rythme de l’avenir de la GenAI », avance Chirag Dekate, analyste chez Gartner. « Il ne s’agit plus pour Google de rattraper les autres. Il s’agit plutôt de savoir quand les autres rattraperont Google ».

Une promesse à transformer en cas d’usage pour les entreprises, selon les analystes

Selon William McKeon-White, analyste chez Forrester Research, l’augmentation de la fenêtre de contexte vise à résoudre l’une des plus grandes restrictions des systèmes d’IA générative à l’heure actuelle.

Cette difficulté réside dans la capacité des systèmes d’IA générative à comprendre l’état, un ensemble d’informations qui indique où se trouve les éléments d’un système d’IA à un moment donné.

Bien que l’architecture RAG soit utilisée pour résoudre ce problème, la taille restreinte des fenêtres de contexte pose toujours un problème. Et l’exploit de Google ne le résout pas totalement, selon William McKeon-White. Les modèles d’IA ont toujours du mal à stocker des informations de manière qu’elles puissent être mises à jour au fil du temps, sans être éphémères.

Il y a tout de même du mieux dans le maintien du contexte, des interactions précédentes, de leur compréhension et dans la production de réponses pertinentes, juge l’analyste de Forrester. Les capacités expérimentales de Gemini devraient rassurer les utilisateurs, juge-t-il.

L’extension potentielle de la fenêtre de contexte de Gemini 1.5 Pro devrait également convaincre certaines entreprises, selon R « Ray » Wang, fondateur et analyste de Constellation Research. « Google a répondu à ces attentes plus rapidement, de meilleure façon et, espérons-le, à moindre coût, grâce à son architecture combinant Transformer et MoE ». Pour l’heure, GCP est encore en train d’optimiser son modèle, et son infrastructure, pour le rendre viable commercialement.

Bien que Chirag Dekate considère l’innovation de Google comme impressionnante, le fournisseur cloud doit encore prouver aux entreprises comment cela se traduit en cas d’usages tangibles dans les secteurs de la finance, de l’assurance ou du manufacturing. Microsoft a pu réussir dans ce domaine parce qu’elle a rapidement rendu sa technologie d’IA générative utile pour l’entreprise, poursuit l’analyste de Gartner. « Google doit rendre son innovation pertinente pour les entreprises », martèle-t-il. « S’ils y parviennent, s’ils innovent au nom des clients et s’ils créent des alliances industrielles, des stratégies d’exécution, ils pourront alors renverser la vapeur ».

Sans cela, « l’innovation autour de Gemini est impressionnante, mais oubliable », conclut-il.

Pour approfondir sur Intelligence Artificielle et Data Science

Close