LLM : une très grande fenêtre de contexte, est-ce utile ?
À quoi servent les LLM dotés d’une très grande fenêtre de contexte ? Comment les exploiter ? Est-ce efficace ? Les témoignages des clients de Google Cloud qui les ont expérimentés donnent une idée de leurs avantages et de leurs limites.
Lors de la Grosse Conf’, organisée par OCTO Technology, Julien Simon, chief evangelist chez Hugging Face, considérait qu’une très grande fenêtre de contexte associée à certains grands modèles de langage relevait davantage d’un argument marketing plutôt que d’un véritable atout technique. « Il faut comprendre que 100 00 tokens correspondent à un livre de plus de 50 000 mots. Quel est l’intérêt d’interroger un livre ? À quel cas d’usage cela répond-il ? À mon sens, c’est du marketing qui cache des temps de réponse de plusieurs minutes et des coûts importants ».
C’est pourtant la voie prise par Anthropic, OpenAI et Google. Anthropic a été l’un des premiers à coupler une fenêtre de contexte de plus de 100 000 tokens à un LLM (Large Language Model). OpenAI a suivi avec des variantes de GPT-4 dotées d’une fenêtre de contexte de 128 000 tokens. Anthropic a renchéri avec Claude 2 et ses 200 00 tokens en entrée. Google, avec Gemini 1.5 Pro, a proposé une fenêtre de contexte de plus d’un million de tokens et a testé une fenêtre de plus de 10 millions de tokens.
Pourquoi une grande fenêtre de contexte peut-elle être intéressante ?
La doctrine de déploiements des LLM la plus répandue consiste à coupler un modèle avec une architecture RAG (Retrieval Augmented Generation). Une architecture RAG combine une représentation vectorielle des données avec un moteur de recherche. Le tout peut être connecté au LLM, afin d’enrichir les réponses aux questions posées par les usagers. Ainsi, « vous ne vous appuyez pas sur la connaissance des modèles, mais sur un ensemble d’informations interne à l’entreprise. Le modèle n’est qu’un assistant qui vous aide à interroger ou générer du contenu à partir de cette base documentaire », résume Julien Simon. Il ne serait pas nécessaire que la fenêtre de contexte soit très longue pour obtenir des résultats pertinents, selon le Chief Evangelist.
L’argument principal des promoteurs de grandes fenêtres de contexte, c’est qu’elle permet de prendre en charge un plus grand nombre de cas d’usage. Les LLM seraient alors capables d’associer des informations ou des idées séparées par de nombreux paragraphes. « Au lieu de documents d’une douzaine de pages [Gemini 1.5 Pro] peut résumer des contenus de plusieurs milliers de pages » ou « analyser des dizaines de milliers de lignes de code à la fois », défend Google.
Certains émettent l’idée qu’il ne serait plus nécessaire de s’appuyer sur des architectures RAG afin d’obtenir un contexte de qualité dans différents domaines ou secteurs. Une affirmation qui, au vu de sa réaction, est considérée par Julien Simon comme une hérésie.
De fait, comme les LLM sont entraînés sur des données publiques, ils n’ont pas accès aux données internes des entreprises (sauf contamination involontaire). Et le fait d’utiliser uniquement la fenêtre de contexte rend le système totalement dépendant d’un modèle. Pour rappel, les LLM les mieux dotés en la matière, à ce jour, sont propriétaires.
Selon les chercheurs de Google, il s’agit surtout d’éviter le phénomène d’oubli des agents conversationnels s’appuyant sur des LLM. De fait, la fenêtre de contexte est aussi la « mémoire » d’un modèle de langage. Plus cette dernière est grande, plus il serait possible d’enchaîner les interactions avec un agent sans qu’il oublie le sujet de la conversation. Cela permettrait de minimiser l’empreinte d’une architecture de mise en cache des échanges nécessaires pour maintenir le contexte de ceux-ci.
Des clients de Google Cloud commencent à tester et à exploiter la variante de Gemini 1.5 Pro dotée d’une fenêtre de contexte d’un million de tokens et y trouvent un intérêt dans des cas particuliers.
WPP observe des gains prometteurs avec son système d’IA multimodale
C’est le cas de WPP, le géant britannique de la publicité qui a signé un partenariat avec GCP et qui compte investir 300 millions de dollars dans l’IA en 2024.
« Au cours des six dernières semaines, l’utilisation de modèles dotés d’une grande fenêtre de contexte comme Gemini Pro est devenue un domaine de recherche et développement très actif pour nous », affirmait Stephan Pretorius, chief Technology Officer chez WPP, le 9 avril dernier lors de Google Cloud Next’24. « Cela nous permet de construire des systèmes basés sur des chaînes de pensées dans nos outils qui sont beaucoup plus intéressants pour nous ».
La chaîne de pensées mentionnée ici fait référence à une technique de prompting nommée « Chain-of-Thought » (CoT) visant à améliorer les capacités de raisonnement d’un LLM. Il s’agit de subdiviser une tâche cible en de plus petites tâches intermédiaires. L’usager fournit dans son instruction des étapes de raisonnement, fournit des exemples des résultats ou demande directement au modèle d’expliquer son « cheminement de pensées » pour arriver au résultat final.
« Nous disposons d’un produit interne appelé Creative Studio. Celui-ci s’appuie sur un système CoT capable de générer un contenu multimodal, par exemple de créer un Persona pour cette marque sur ce marché, de créer des images, du texte, des infographies puis de tester le tout auprès d’un conseil d’experts », décrit-il.
Ces experts sont eux-mêmes des agents propulsés par des LLM développés à l’aide de données terrain. « Ce sont des représentations de consommateurs, de stratège en marque, de spécialistes du marketing… qui critiquent le contenu généré par le système », poursuit Stephan Pretorius.
Précisons que dans ce contexte, WPP fait appel aux capacités multimodales de Gemini 1.5 Pro.
« Au lieu d’utiliser uniquement du texte, vous pouvez désormais utiliser une combinaison de texte, de vidéo et d’images afin de générer quelque chose pour vous sur la base de toutes ces informations que vous fournissez en entrée », déclare le CTO. « Je pense donc qu’il s’agit d’une question de volume et de variétés de données en entrée. Franchement, je pense que cela rend le résultat beaucoup plus fiable ».
Pour sa part, Guido Mathews, VP, Bayer Radiology, Head Imaging, Data and AI Research Center of Excellence, chez Bayer explique qu’un LLM comme Gemini 1.5 Pro est un candidat idéal pour propulser une plateforme permettant aux radiologues d’analyser des données médicales contenues dans des radiographies et des rapports, puis de générer des documents « répondants aux exigences réglementaires » utiles dans l’aide au diagnostic.
« Nous n’y sommes pas encore, mais la possibilité de traiter énormément de points de données, des documents et des images semble pour nous très utile », affirme-t-il.
Optimisations et usages ciblés
Il n’en reste pas moins qu’utiliser plusieurs centaines de milliers de tokens en entrée, voire des millions, reste coûteux. Le deux mai prochain, Google ouvrira la préversion de la variante de Gemini 1.5 Pro avec une très grande fenêtre de contexte. Le tarif provisoire est de 7 dollars pour 1 million de tokens en entrée et 21 dollars pour 1 million de tokens en sortie. Chez Anthropic, l’appel aux API Claude 3, capable d’absorber un volume de tokens équivalent, coûte 15 dollars pour 1 million de tokens en entrée et 75 dollars en sortie.
« Oui, cela pourrait être coûteux si tous les usagers effectuaient des requêtes avec 1 million de tokens en entrée, mais il est peu probable que ce soit le cas, vu l’énorme quantité d’informations que cela représente », nuance Stephan Pretorius.
Selon le CTO de WPP, la gestion des coûts est cruciale dans le développement de tel cas d’usage. « C’est pourquoi nous utilisons diverses techniques. Dans un premier temps, lorsque l’information est intégrée dans un référentiel de connaissances, elle est traitée à l’aide d’outils tels que Gemini Pro, où elle est synthétisée ou résumée sous une forme condensée. Ce contenu indexé ou résumé sert de base à des références ultérieures, réduisant ainsi les volumes de données à soumettre au modèle », explique-t-il.
La mise en cache et l’indexation demeure donc nécessaire pour éviter de passer plusieurs fois une énorme quantité de données.
De son côté, l’opérateur télécom Verizon développe un système RAG afin de faciliter l’exploration de la documentation interne au sein de ses centres de contact. Lui aussi exploite la très grande fenêtre de contexte de Gemini Pro, mais dans ce cas d’usage particulier, il met en place un système de mise en cache qui retient les résultats des questions les plus régulièrement posées par les agents.
« Il y a beaucoup de techniques que vous pouvez mettre en place, car dans des cas d’usage réel, 30 à 40 % des questions reviennent très régulièrement », explique Kalyani Sekar, SVP et Chief Data Officer chez Verizon. « Il s’agit donc de mettre ces réponses en cache, ce qui permet en outre d’obtenir une cohérence plus forte pour les utilisateurs finaux. Nous faisons également en sorte d’optimiser la manière dont les données sont envoyées aux modèles, pour des raisons de coûts et de confidentialité », ajoute-t-elle.
Ces optimisations permettraient également de réduire le temps d’inférence, même quand il est question d’explorer de longs documents.
« Nous aidons les clients de manière proactive à réduire les coûts », vante Mickael Clark, président Amérique du Nord de Google Cloud. « Ainsi, lorsque vous réfléchissez à la manière dont Google au sens large exploite cette technologie, nous ne sommes pas dans une position où nous pouvons facturer davantage pour la recherche, car ce n’est pas ainsi que cela fonctionne. Nous recherchons donc constamment l’efficacité. Une grande partie du travail que nous effectuons avec nos clients consiste ainsi à leur partager les techniques d’optimisation que nous avons mises en place ».
Un attribut souhaitable, mais pas encore très efficace, selon les chercheurs
Il n’en reste pas moins que l’allongement de la fenêtre de contexte demeure un sujet de recherche actif et sujet à débats. En novembre 2023, des chercheurs de l’Université de Stanford ont déterminé que les LLM dotés d’une grande fenêtre de contexte étaient sensibles au positionnement de l’information dans le contenu en entrée.
Travaux de rechercheUne équipe de chercheurs des universités de Waterloo, Carnegie Mellon et Vector Institute de Toronto
Une équipe de chercheurs rattachés aux universités de Waterloo, de Carnegie Mellon et du Vector Institute de Toronto arrivent aux mêmes conclusions après avoir testé 13 LLMs utilisés pour effectuer des tâches de classifications « méticuleuses » de contenus textuels. « Grâce à notre étude, nous avons découvert que si les LLMs montrent une performance prometteuse sur des entrées jusqu’à 20 000 tokens, leur capacité à traiter et à comprendre des séquences plus longues diminue de manière significative », signalent-ils dans un article publié le 2 avril et mis à jour le 4 avril 2024.
Dans un même temps, de nouvelles techniques émergent pour rendre effectives ces grandes fenêtres de contexte. C’est l’objet, du projet LongRoPe mené par des chercheurs de Microsoft Research en vue de surpasser la limite théorique de 128 000 tokens. Leur approche leur a permis d’atteindre 2 millions de tokens « sans réduire les capacités du modèle associé », ici Llama 2 et Mistral. Meta AI commence à peine à s’attaquer au sujet, tandis que Mistral accélère gentiment.