Mixtral 8x22B : Mistral AI veut asseoir sa pertinence auprès des développeurs
Mistral AI a officialisé le lancement de Mixtral 8x22B, son plus grand modèle de langage « open weight » taillé pour la programmation et pour la traduction des langues les plus parlées en Europe.
Après avoir publié sur X (Twitter) un lien magnet la semaine dernière, Mistral AI s’est décidé à officialiser hier la disponibilité de son dernier modèle de langage (large language model ou LLM) en date, Mixtral 8x22B à l’occasion de la disponibilité de la variante Instruct.
Comme son nom l’indique, ces deux LLM reprennent l’architecture « Sparse Mixture of Experts » (SMoE) – en français un « mélange épars » de réseaux de neurones experts – qu’il a développée pour le bien de Mixtral 8x7B.
À l’instar de ce dernier, Mixtral 8x22B regroupe un réseau de 8 « experts ». Mais au lieu que ces experts soient dotés chacun de 7 milliards de paramètres, pour un total de 46,7 milliards de paramètres (56 milliards de paramètres théoriques), ils disposent de 22 milliards de paramètres chacun pour un total de 140,6 milliards de paramètres (et un total théorique de 176 milliards de paramètres).
Architecture SMoE oblige, Mixtral 8x22B n’appelle qu’une partie des paramètres, c’est-à-dire ceux correspondant aux « experts » sollicités à l’inférence. Ici, il active 39,1 milliards de paramètres quand Mixtral 8x7B en déclenche 12,9 milliards. Dans les deux cas, les modèles exploitent deux des huit experts mentionnés pour chaque token. Là où Mixtral 8x7B dispose d’une fenêtre de contexte de 32 000 tokens, la variante 8x22B double cette longueur pour atteindre 64 000 tokens en entrée (65 536 tokens, selon le fichier de configuration du modèle).
Le plus grand modèle « open weight » de Mistral AI
Pour rappel, les LLM les plus performants du marché offrent une fenêtre de contexte moyenne de 32 000 tokens. Les fournisseurs tels qu’Anthropic, OpenAI et Google misent fortement sur l’allongement de ce critère.
Néanmoins, Mixtral 8x22B est le plus grand modèle « open weight » (sous licence Apache 2.0) proposé par Mistral AI. Il pèse plus de 280 Go. Celui-ci réclame au minimum 300 Go de VRAM pour s’exécuter en mode BFloat 16, soit un cluster de 4 GPU Nvidia dotés chacun de 80 Go de VRAM.
Mixtral 8x7B n’en réclamait que 100 Go (et 16 Go pour Mistral 7B). En clair, Mixtral 8x22B demeure gourmand en ressources. Des versions « quantizées » (compressées) apparaissent déjà sur les internet. Pour sa part, Mistral AI propose des optimisations depuis les instances d’inférence Hugging Face.
Comme à son habitude, la startup n’en dit pas plus sur ces méthodes d’entraînement ou sur les ajustements potentiellement apportés à l’architecture du modèle de langage. Le fichier de configuration nous indique tout de même le nombre de têtes d’attention (48), de couches cachées (56) et que l’usage de la technique RoPE (encodage rotatif de la position d’un token) est toujours d’actualité.
Logiquement, Mistral AI décline le LLM dans une version préentraînée, « sans mécanismes de modération » et une version « instruite » (Instruct), plus aisément manipulable. Mixtral 8x22B instruct est d’ailleurs disponible depuis le playground de Perplexity Labs.
Selon Mistral AI, ces deux modèles « répondent » couramment en anglais, français, italien, allemand et espagnol. Il dispose de capacités en mathématiques et en programmation et accepte « nativement » l’appel de fonction, une capacité que le fournisseur propose depuis sa plateforme pour que ses LLM puissent interagir avec des applications, des bases de données ou des API.
C’est d’ailleurs dans ce domaine que le modèle serait le plus pertinent, en plus de la traduction. « Mixtral brille particulièrement dans les domaines de la science, du code et du multilinguisme », affirme Guillaume Lample, cofondateur et directeur scientifique chez Mistral AI, sur X (Twitter).
Un bon compromis pour les développeurs
Les benchmarks présentés par la startup tendent à démontrer que Mixtral 8x22B est meilleur que Mixtral 8x7B, Mistral 7B, Cohere Command R et R+ et Llama 2-70B dans les tests de « sens communs et de raisonnement » (MMLU, HellaSwag, Arc C 5 et 25 shots) et de connaissances (TriQA et NaturalQS). Les écarts sont réellement flagrants sur les tests HumanEval, MBPP, GSM8K (maj@1 – 5 shots et maj@8 - 8 shots) et Math maj@4 par rapport à tous les modèles précédemment cités. La version instruct serait même meilleure dans la résolution de problèmes mathématiques. Cette version instruct est déjà ce 18 avril 2024 à la neuvième place du classement des LLM maintenus par Hugging Face.
Selon les benchmarks officiels d’OpenAI, GPT-4 première génération est meilleure que Mixtral 8x22B sur la plupart des parangonnages évoqués, mais le LLM de Mistral égale ou surpasse GPT-3.5. Mixtral 8x22B Base serait presque aussi performant que Claude 3 Sonet (et légèrement au-dessus de Claude 3 Haiku), mais en deçà de Claude 3 Opus, très proche de GPT-4.
De son côté, la startup WritingMates note que Mistral 8x22B et DBRX Instruct, le modèle entraîné par Databricks sont à peu près égaux dans l’accomplissement de tâches de programmation. Elle note toutefois que la vitesse d’inférence de DBRX Instruct est largement supérieure à celle de Mixtral 8x22B.
En réaction aux scores diffusés par Mistral AI, Di Jin, un chercheur chez Meta GenAI a salué la performance de Mixtral 8x22B face à Cohere Command R+ tout en laissant à penser que LLama 3, qui ne devrait plus tarder à pointer le bout de son nez, ferait des vagues. De son côté, Databricks affirme que Mixtral 8x22B s’appuie sur la même architecture que son LLM DBRX : Megablocks.
Les modèles sont disponibles sur La Plateforme de Mistral AI, sur Hugging Face et sont déjà accessibles à travers plusieurs playgrounds.