IA générative : les grandes catégories de LLM

Introduction

Les modèles de langage ne manquent pas. Il y a d’un côté les travaux des éditeurs et des fournisseurs de modèles et de l’autre, les projets communautaires référencés sur Hugging Face. Ces Large Language Models ne visent pas le même objectif. Et la multiplication des projets complexifie le choix pour les entreprises.

À travers ce guide essentiel, nous identifions des catégories de modèles suivant trois aspects principaux : l’architecture du modèle, les méthodes de fine-tuning et les usages.

Nous évoquons ici les modèles denses, Mixture of Experts, les Small Language Models (SLM), les modèles multimodaux et de génération de code. Certaines catégories présentées dans ce guide sont poreuses. L’architecture d’un modèle, à la fois son comportement, les résultats qu’il produit, et la puissance de calcul nécessaire à son exécution. A priori, un petit modèle est plus intéressant à exécuter, mais il présentera des performances moins intéressantes qu’un grand modèle dense, qui lui-même peut être moins intéressant sur ces deux aspects qu’un modèle Sparse Mixture of Experts, combinant plusieurs modèles en un checkpoint.

Pour certaines tâches, il peut être intéressant qu’un modèle soit doté de multiples capacités afin de traiter des images, des sons, du texte, du code, etc. Voilà la raison d’être des modèles multimodaux, voués – à l’avenir – à propulser, par exemple, des agents Web capables d’organiser (accessibles via Internet), ou de devenir une partie du back-end d’une application front-end. Pour d’autres, il est bien plus intéressant de spécialiser les LLM. Les éditeurs se sont principalement concentrés sur la génération de code et poursuivent les recherches en matière de sécurité et de santé.

Ce guide essentiel n’a aucune velléité d’exhaustivité. De nouvelles catégories peuvent émerger et la présence de plus de 570 000 modèles de machine learning sur Hugging Face donne une idée du travail que cela réclamerait.

En revanche, il a vocation à donner un bon aperçu des catégories existantes et il pourra être mis à jour l’avenir. Par ailleurs, ce guide détaille les méthodes de parangonnage des LLM génériques – souvent utilisées comme des arguments marketing – et les outils mis en place par les fournisseurs cloud afin d’évaluer les modèles dans l’exécution de certaines tâches ou au regard d’instructions spécifiques.

1Fondation-

Les modèles « denses »

Actualités

Llama 3 : Meta, ou la folie des ordres de grandeur

Un jour après la disponibilité officielle de Mixtral 8x22B, Meta a annoncé LLama 3, sa troisième collection de modèles « open weight », sous licence propriétaire permissive. Le géant des réseaux sociaux rattrape ses concurrents, au prix d’investissements techniques et humains conséquents… et d’une plus grosse empreinte carbone. Lire la suite

Actualités

IA générative : les promesses de Mistral AI n’étaient pas du vent

Fondée en avril, la startup française lancée par d’anciens chercheurs de Google et de Meta a présenté ses premiers grands modèles de langage open source. Comme promis, ils sont petits, performants et pavent la voie à des alternatives aux modèles propriétaires d’OpenAI ou d’Anthropic. Lire la suite

2Optimisation-

Les modèles Mixture of Experts

Actualités

Mixtral 8x22B : Mistral AI veut asseoir sa pertinence auprès des développeurs

Mistral AI a officialisé le lancement de Mixtral 8x22B, son plus grand modèle de langage « open weight » taillé pour la programmation et pour la traduction des langues les plus parlées en Europe. Lire la suite

Actualités

LLM : Avec DBRX, Databricks se met au niveau de Meta, Mistral AI et xAI

Databricks a présenté son LLM DBRX. Ce démonstrateur géant entend prouver qu’il est possible d’entraîner de grands modèles de langage avec les outils de sa plateforme. Plus largement, l’éditeur veut asseoir l’idée que les modèles ouverts sont aussi performants, voire meilleurs que leurs pairs sous licence exclusivement propriétaire. Lire la suite

Actualités

LLM ouvert : Snowflake entre dans la course avec Arctic

Avec ses grands modèles de langage Arctic, Snowflake compte bien se mettre en tête de proue de l’innovation ouverte. L’intérêt pour le fournisseur ? Ne pas forcément dépendre d’un acteur tiers et proposer des solutions alignées avec les cas d’usage qu’ils portent. Lire la suite

3Rentabilité-

Les Small Language Models

Actualités

CroissantLLM : un exemple français de LLM « souverain »

Avec CroissantLLM, des chercheurs de CentraleSupélec et d’ILLUIN Technology veulent prouver que les grands modèles de langage « souverains » peuvent émerger, sont utiles, performants et efficients. Lire la suite

Actualités

Phi-3-Mini : Microsoft a trouvé la recette du petit LLM très performant

Les chercheurs de Microsoft affirment que les performances du Phi-3-mini sont comparables à celles de GPT 3.5 et Llama 3-8B, beaucoup plus grands, et qu’il peut fonctionner sur un iPhone 14 équipé d’une puce A16 Bionic. Lire la suite

Actualités

Gemma et ses variantes : l’essentiel sur les LLM ouverts de Google

Si Google a concentré sa communication sur Gemini, à la fois une gamme de modèles de langage et une suite de produits. Il mise également sur les LLM « open weight », Gemma et ses variantes CodeGemma, PaliGemma ou encore RecurrentGemma. Leur existence vise deux objectifs : soutenir les projets de déploiements plus efficients et, surtout, la recherche en IA générative. Lire la suite

4Versatilité-

Les modèles multimodaux

Actualités

LLM : Claude 3 d’Anthropic impressionne… sur le papier

Anthropic a présenté hier une nouvelle collection de modèles de langage, Claude 3. Malgré les performances affichées – qui semblent être vérifiées –, les observateurs et les acteurs du marché attendent davantage de pistes concrètes pour les exploiter en entreprise. Lire la suite

Actualités

« Un saut générationnel » : Google présente son LLM étendard Gemini 1.5 Pro

Google présente (déjà) le lancement de la collection de modèles d’IA multimodale Gemini 1.5. Ces LLM seront capables d’ingérer de très longs textes, fichiers audio et vidéo. « Oui, mais pour quels cas d’usage ? » se demandent en substance les analystes. Lire la suite

Actualités

GPT-4o : le nouveau LLM multimodal d’OpenAI pour contrer Google Gemini

Le géant de la GenAI présente une version plus rapide et plus interactive de GPT-4. Ce LLM qui vient de sortir s’adresse aux entreprises. Mais ses nouvelles fonctionnalités seront également accessibles dans ChatGPT, y compris dans sa version gratuite. Lire la suite

5Développement-

Les modèles de génération de code

Actualités

Avec Codestral, Mistral AI tient son LLM pour développeurs

Le 29 mai, Mistral a dévoilé Codestral, une paire de modèles dédiés à la génération de code. Ils sont accessibles via ses API payantes et sur Hugging Face, sous une licence propriétaire permissive qui limite les usages commerciaux et en production. Lire la suite

Actualités

Code Llama : Meta convertit Llama 2 à la génération de code

Meta AI a dévoilé Code Llama, son alternative à Codex d’OpenAI et à CodeWhisper d’AWS. Les modèles de la collection s’avèrent performants, allant jusqu’à surpasser les capacités de Codex d’OpenAI, le modèle à l’origine de GitHub Copilot, et StarCoder, le projet développé par Servicenow et Hugging Face. Lire la suite

6Évaluation-

Les benchmarks et les outils

Conseils IT

IA générative : comprendre les benchmarks génériques

À quoi correspondent les scores diffusés par les concepteurs de modèles d’IA générative ? Ce conseil revient sur les benchmarks les plus utilisés par les fournisseurs de LLM et explique leur rôle. Lire la suite

Conseils IT

LLM : les outils d’évaluation des fournisseurs cloud

Comment sélectionner un modèle d’IA générative ? Les fournisseurs cloud américains – portes d’entrée principales des déploiements – ont prévu des outils d’évaluation. Voici leurs principales caractéristiques. Lire la suite