cn0ra - stock.adobe.com
LLM : Mistral Large 2 vole déjà la vedette au fleuron de Meta
Le lendemain de la présentation de Llama 3.1, c’est au tour de Mistral AI de présenter Mistral Large 2, un LLM doté de 123 milliards de paramètres. Il présente des niveaux de performance équivalents à Llama 3.1 405B, le modèle phare de Meta, pourtant trois fois plus grand.
« Large Enough ». Assez grand comme cela. Voilà le slogan de Mistral AI pour présenter Mistral Large 2.
La startup française n’a clairement pas l’armada de serveurs de Meta ou d’OpenAI. Pourtant, elle compte bien rivaliser avec les deux mastodontes de l’IA générative.
Mistral AI présente ici un modèle de 123 milliards de paramètres, doté d’une fenêtre de contexte de 128 000 tokens. Pour rappel, Mistral Large premier du nom peut ingérer 32 000 tokens en entrée.
L’objectif de Mistral AI ? Que son onzième LLM tienne sur un « seul nœud GPU Nvidia H100 » à l’inférence. Ce dernier pèse environ 228 Go dans sa version « instruite ».
Le LLM prend en charge le français, l’allemand, l’espagnol, l’italien, le portugais, l’arabe, le russe, l’hindi, le chinois, le japonais, le coréen ainsi que plus de 80 langages de programmation (Python, Java, C, C++, JavaScript, Bash, etc.).
D’après les déclarations de Guillaume Lample sur X (Twitter), cofondateur et directeur scientifique de Mistral AI, le jeu d’entraînement semble très proche de celui utilisé pour concevoir Mistral NeMo 12B. Ce LLM entraîné à l’aide de Nvidia a été lancé la semaine dernière.
Dans son communiqué, la startup ne fournit aucun détail sur l’architecture de Mistral Large 2. Il y a pourtant un moyen d’en savoir plus. Ce LLM est accessible sous la nouvelle licence Mistral AI Research License. Celle-ci reprend les grands principes de sa MNPL, introduite avec Codestral. En clair, il s’agit d’une licence propriétaire qui permet, après avoir obtenu l’autorisation de la startup, d’exploiter les LLM concernés en dehors d’environnements de production ou à des fins de recherche.
Cela ouvre l’accès au fichier de configuration de Mistral Large 2, un document JSON qui laisse apparaître une architecture dense. La startup maintient son dispositif de rotation des embeddings ROPE. C’est une méthode employée pour allonger la fenêtre de contexte. Elle exploite RMSnorm, une technique de moyenne quadratique d’activation des neurones. Celle-ci assure la stabilisation et l’accélération de l’entraînement des LLM. À côté de ça, Mistral s’appuie sur la fonction d’activation SiLU (Sigmoid Linear Unit) et semble déployer un mécanisme d’attention groupé (GQA), au vu du nombre de têtes clé – valeur utilisées (huit).
Mistral Large 2 ferait jeu égal avec les géants de l’IA générative
En clair, Mistral AI adopte la même approche que Google et Meta, sans bâtir un vaisseau amiral.
Pour autant, Mistral Large 2 obtient un score moyen légèrement supérieur à Llama 3.1 70B et 405B (74,4 % contre 66,8 % et 73,7 %) quand il est confronté au benchmark MultiPL-E. Il s’agit d’un jeu de données pour évaluer la performance des LLM dans des tâches de programmation écrites dans plusieurs langages. À cet exercice, il frôle la note de GPT-4o (75,3 %).
Clairement, Mistral Large 2 s’illustre dans les tâches de mathématiques, de raisonnement et de programmation. Selon les résultats présentés par la startup, le LLM devance Claude 3.5 Sonnet, Claude 3 Opus, Llama 3.1 70B et 405B, Cohere Command R+ et Mistral Large aux parangonnages HumanEval, HumanEval Plus, et Math Instruct.
Il s’en sort moins bien au test MBPP et MBPP Plus, tandis que les différences sont plus difficiles à distinguer sur l’évaluation GSM8K.
Guillaume LampleCofondateur et directeur scientifique, Mistral AI
Au benchmark MMLU, la variante de base de Mistral Large 2 de base affiche la note de 84 %, contre 86 % pour Llama 3.1 70B, 88,6 % pour Llama 3.1 405B et 88,7 % pour GPT-4o et 88,3 % pour Claude 3.5 Sonnet, selon les mesures de Meta.
« Sur de nombreux benchmarks (notamment en génération de code et en mathématiques), il [Mistral Large 2] est supérieur ou égal à Llama 3.1 405B », résume Guillaume Lample.
Il faudra essayer le modèle dans des conditions réelles pour se rendre compte de ses véritables performances.
De son côté, Mistral AI précise qu’il a placé ses efforts dans l’amélioration des capacités de raisonnement de Mistral Large 2, la réduction des hallucinations ou encore une meilleure prise en charge des appels de fonctions. Par ailleurs, dans certains cas, il peut refuser de répondre à une question, considérant qu’il n’a pas accès aux connaissances nécessaires.
En outre, la startup dit avoir « drastiquement » amélioré les performances de son modèle dans le suivi d’instruction et de conversation. Elle en veut pour preuve les résultats de Mistral Large 2 aux bancs d’essai Wild Bench et Arena Hard, qui se rapprochent gentiment de ceux de GPT-4o et de Claude 3.5 Sonnet. Manifestement, Mistral AI ne veut pas dévoiler les recettes qui lui permettent de gagner en efficience.
« Je ne peux qu’applaudir Mistral pour chercher l’efficacité à partir de modèles plus petits », déclare John Burke, analyste chez Nemertes Research, auprès de SearchEnterpriseAI, une publication sœur du MagIT. « Il est évident que l’accumulation de paramètres n’est ni économiquement, ni énergétiquement, ni écologiquement viable, et probablement pas non plus technologiquement soutenable à long terme. C’est encourageant de voir quelqu’un résister à cette tendance ».
Nombre de modèles : Mistral AI réduit la voilure et renforce ses partenariats
Mistral Large 2 est disponible depuis La Plateforme, le catalogue d’API de Mistral AI, Google Vertex AI, Azure AI Studio, Amazon Bedrock et IBM Watsonx. Ici, une licence commerciale spécifique à l’usage cloud s’applique.
John BurkeAnalyste, Nemertes Research
Google Cloud et Microsoft accueillent déjà Mistral Nemo qui sera prochainement accessible sur Bedrock. GCP a la primeur sur Codestral qui débarquera également sur Azure. AWS et Azure proposeront par ailleurs des fonctions de fine-tuning des LLM Mistral AI.
Mistral AI avait préalablement annoncé qu’elle consoliderait son offre de LLM sur La Plateforme. Ainsi, elle compte se concentrer sur Mistral Nemo, Mistral Large 2, Codestral et Embed. Les LLM sous licence Apache 2.0 demeurent disponibles pour le déploiement et le fine-tuning. En clair, Mistral Large 2402 (premier du nom), Small et Medium ne seront plus accessibles.
Sur La Plateforme et Azure, Mistra Large 2 est facturé 2,7 euros (3 dollars) pour 1 million de tokens en entrée et 8,2 euros (9 dollars) avec le même volume de jetons en sortie. C’est moins cher que Llama 3.1 405B (5,33 dollars/1M de tokens en entrée, 16 dollars/1M de tokens en sortie) sur Azure, que GPT-4o (5 dollars/1M de tokens en entrée, 15 dollars/1M de tokens en sortie) et que Claude 3.5 Sonnet (3 dollars/1M tokens en entrée, 15 dollars/1M tokens en sortie).