Getty Images/

Comment choisir le LLM qui vous convient le mieux ?

La sélection du meilleur grand modèle de langage pour votre cas d’utilisation nécessite un équilibre entre les performances, le coût et les considérations d’infrastructure. Découvrez ce qu’il faut garder à l’esprit lorsque l’on compare les LLM.

Le lancement de ChatGPT en novembre 2022 a démontré le potentiel de l’IA générative pour les entreprises. En 2024, l’espace des grands modèles de langage s’est rapidement élargi, avec de nombreux modèles disponibles pour différents cas d’utilisation.

Avec autant de LLMs, choisir le bon peut s’avérer difficile. Il faut comparer des facteurs tels que la taille du modèle, la précision, la fonctionnalité de l’agent, la prise en charge des langues et les performances de référence, et prendre en compte des éléments pratiques tels que le coût, l’évolutivité, la vitesse d’inférence et la compatibilité avec l’infrastructure existante.

Facteurs à prendre en compte lors du choix d’un LLM

Lors du choix d’un LLM, il est essentiel d’évaluer à la fois les différents aspects du modèle et les cas d’utilisation auxquels il est destiné.

L’évaluation holistique des modèles permet d’obtenir une image plus claire de leur efficacité globale. Par exemple, certains modèles offrent des capacités avancées, telles que des entrées multimodales, l’appel de fonctions ou le réglage fin, mais ces caractéristiques peuvent s’accompagner de compromis en matière de disponibilité ou d’exigences en matière d’infrastructure.

Les aspects clés à prendre en compte lors du choix d’un LLM comprennent la performance du modèle sur différents points de référence, la taille de la fenêtre contextuelle, les caractéristiques uniques et les exigences en matière d’infrastructure.

Critères de performance

Lorsque GPT-4 a été lancé en mars 2023, OpenAI s’est vanté de la forte performance du modèle sur des benchmarks tels que MMLU, TruthfulQA et HellaSwag. D’autres fournisseurs de LLM font également référence aux performances de référence lorsqu’ils lancent de nouveaux modèles ou des mises à jour. Mais que signifient réellement ces critères ?

  • MMLU. Acronyme de Massive Multitask Language Understanding, MMLU évalue un LLM dans 57 matières différentes, dont les mathématiques, l’histoire et le droit. Il teste non seulement la mémorisation, mais aussi l’application des connaissances, exigeant souvent une compréhension de niveau universitaire pour répondre correctement aux questions.
  • HellaSwag. Acronyme de Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations, HellaSwag teste la capacité d’un LLM à appliquer un raisonnement de bon sens lorsqu’il répond à une question.
  • TruthfulQA. Ce critère mesure la capacité d’un LLM à éviter de produire des informations fausses ou trompeuses, connues sous le nom d’hallucinations.
  • NIHS. Acronyme de needle in a haystack (aiguille dans une botte de foin), cette mesure évalue la manière dont les modèles gèrent les tâches d’extraction de longs contextes. Elle évalue la capacité d’un LLM à extraire des informations spécifiques (l’aiguille) d’un long passage de texte (la botte de foin).

Parmi ces critères et d’autres similaires, MMLU est le plus largement utilisé pour mesurer la performance globale d’un LLM. Bien que MMLU soit un bon indicateur de la qualité d’un modèle, il ne couvre pas tous les aspects du raisonnement et de la connaissance. Pour obtenir une vision complète des performances d’un LLM, il est important d’évaluer les modèles sur plusieurs points de référence afin de voir comment ils se comportent dans différentes tâches et différents domaines.

Taille de la fenêtre contextuelle

Un autre facteur à prendre en compte lors de l’évaluation d’un LLM est sa fenêtre contextuelle : la quantité d’entrées qu’il peut traiter en même temps. Différents LLM ont des fenêtres de contexte différentes – mesurées en tokens, qui représentent de petits morceaux de texte –, et les vendeurs améliorent constamment la taille de la fenêtre de contexte pour rester compétitifs.

Par exemple, Claude 2.1 d’Anthropic a été publié en novembre 2023 avec une fenêtre contextuelle de 200 000 tokens, soit environ 150 000 mots. Malgré cette augmentation de la capacité par rapport aux versions précédentes, les utilisateurs ont noté que les performances de Claude avaient tendance à diminuer lorsqu’il traitait de grandes quantités d’informations. Cela suggère qu’une fenêtre contextuelle plus large ne se traduit pas nécessairement par une meilleure qualité de traitement.

Caractéristiques uniques du modèle

Si les critères de performance et la taille de la fenêtre contextuelle couvrent certaines capacités du LLM, il faut également évaluer d’autres caractéristiques du modèle, telles que les capacités linguistiques, la multimodalité, le réglage fin, la disponibilité et d’autres caractéristiques spécifiques qui correspondent à leurs besoins.

Prenons l’exemple de Gemini 1.5 de Google. Le tableau ci-dessous présente quelques-unes de ses principales caractéristiques.

Facteur Gemini 1.5 Pro
Multilingue Oui
Multimodal Oui
Support du fine-tuning Oui
Fenêtre de contexte Jusqu'à 2 million de jetons (~ 1,5 million de mots)
Appel de fonction Oui
Mode JSON Oui
Disponibilité Service cloud uniquement
Score MMLU score 81,9

Bien que Gemini 1.5 possède des propriétés impressionnantes – notamment le fait d’être le seul modèle capable de gérer jusqu’à 2 millions de jetons au moment de la publication –, il n’est disponible que sous la forme d’un service Cloud via Google. Cela pourrait constituer un inconvénient pour les organisations qui utilisent un autre fournisseur de services cloud, qui souhaitent héberger des LLM sur leur infrastructure ou qui ont besoin d’exécuter des LLM sur un petit appareil.

Heureusement, une large gamme de LLM permet un déploiement sur site. Par exemple, la série de modèles Llama 3 de Meta offre une variété de tailles de modèles et de fonctionnalités, permettant plus de flexibilité aux organisations ayant des exigences spécifiques en matière d’infrastructure.

Exigences en matière de GPU

Un autre élément essentiel à évaluer lors du choix d’un LLM concerne les exigences en matière d’infrastructure.

Les modèles plus importants, avec plus de paramètres, ont besoin de plus de VRAM GPU pour fonctionner efficacement sur l’infrastructure d’une organisation. Une règle générale consiste à doubler le nombre de paramètres (en milliards) pour estimer la quantité de VRAM GPU nécessaire à un modèle. Par exemple, un modèle comportant 1 milliard de paramètres nécessiterait environ 2 Go de GPU VRAM pour fonctionner efficacement.

À titre d’exemple, le tableau ci-dessous présente les caractéristiques, les capacités et les besoins en GPU de plusieurs modèles Llama.

Modèle Fenêtre de contexte Fonctionnalités Besoin en VRAM GPU Applications Score MMLU 

Llama 3.2 1B

128K jetons

Multilingue, texte uniquement

Bas (2 Go)

Edge computing, terminaux mobiles

49

Llama 3.2 3B

128K jetons

Multilingue, texte uniquement

Bas (4 Go)

Edge computing, terminaux mobiles

63

Llama 3.2 11B

128K jetons

Multimodal (texte + image)

Moyen (22 Go)

Reconnaissance d'image, analyse de documents

73

Llama 3.2 90B

128K jetons

Multimodal (texte + image)

Élevé (180 Go)

Reconnaissance d'image avancée, tâches complexes

86

Llama 3.1 405B

128K tokens

Multilingue, capacités à l'état de l'art

Très élevé (810 Go)

Connaissances générales, mathématiques, utilisation d'outils, traduction

87

Lors de l’examen des exigences en matière de GPU, le choix d’un LLM dépendra fortement du cas d’utilisation prévu. Par exemple, si l’objectif est d’exécuter une application LLM avec des fonctions de vision sur un appareil standard d’utilisateur final, Llama 3.2 11B pourrait être un bon choix, car il prend en charge les tâches de vision tout en ne nécessitant qu’une mémoire modérée. Cependant, si l’application est destinée à des appareils mobiles, le Llama 3.2 1B pourrait être plus approprié grâce à ses besoins en mémoire plus faibles, qui lui permettent de fonctionner sur des appareils plus petits.

Outils de comparaison des LLM

De nombreuses ressources en ligne sont disponibles pour aider les utilisateurs à comprendre et à comparer les capacités, les scores de référence et les coûts associés à différents LLM.

Par exemple, le Chatbot Arena LLM Leaderboard donne un score de référence global pour différents modèles, avec GPT-4o comme modèle leader actuel. Il faut toutefois garder à l’esprit que l’approche crowdsourcing de Chatbot Arena a suscité des critiques de la part de certaines parties de la communauté de l’IA.

La plateforme communautaire d'évaluation des LLM Chatbot Arena intègre les votes des utilisateurs aux côtés des scores utilisés habituellement pour évaluer les LLM.

Artificial Analysis est une autre ressource qui résume différentes mesures pour divers LLM. Elle montre les capacités et les fenêtres contextuelles des modèles, ainsi que leur coût et leur temps de latence. Cela permet aux utilisateurs d’évaluer les performances et l’efficacité opérationnelle.

Les résumés de comparaisons d'Artificial Analysis évaluent les indicateurs de performances des LLM par rapport à la moyenne des autres modèles.

En utilisant la fonction de comparaison d’Artificial Analysis, les utilisateurs peuvent non seulement évaluer les paramètres spécifiques d’un LLM donné, mais aussi voir comment il se situe par rapport à l’ensemble des autres LLM disponibles.

Marius Sandbu est un évangéliste de l’informatique dématérialisée pour Sopra Steria en Norvège. Il se concentre principalement sur l’informatique pour l’utilisateur final et la technologie « cloud-native ».

Pour approfondir sur IA appliquée, GenAI, IA infusée