Getty Images
Pixtral 12B : Mistral AI lance son premier LLM multimodal
Lors de son Mistral AI Summit, un événement coorganisé par Redpoint le 11 septembre à San Francisco, la startup française a annoncé la disponibilité de Pixtral 12B, un LLM multimodal open weight rivalisant avec les modèles de sa catégorie, dont Gemini 1.5 8B et Claude 3 Haiku.
Pour ceux n’ayant pas eu vent de l’événement, le fournisseur de grands modèles de langage (LLM) a ouvert une nouvelle page Hugging Face. Le nom du modèle donnait déjà un indice sur la nature du modèle et sa taille. Pixtral 12B est un modèle multimodal (plus précisément, un vision language model ou VLM) de 12 milliards de paramètres capable de traiter des images grâce à un « encodeur visuel » de type VIT (VIsion Transformer) d’environ 400 millions de paramètres.
Un premier modèle de vision prometteur (sur le papier)
Les fichiers rendus disponibles par Mistral AI indiquent que Pixtral 12B est « open weight ». Les poids sont sous licence Apache 2.0. Le LLM dont le checkpoint pèse 25 Go s’appuie sur le même tokenizer que Mistral NeMo 12B, c’est-à-dire Tekken. Pas de surprise ici, Mistral NeMo est la base de ce modèle de vision.
Pixtral 12B peut être déployé à l’aide de la librairie open source vLLM. Le VLM sera disponible sur Le Chat et la Plateforme « prochainement », confirme Sophia Yang, responsable des relations développeurs chez Mistral AI.
Selon les exemples fournis sur Hugging Face, Pixtral peut décrire des images en détail, en extraire le texte et expliquer ce qu’il voit.
Selon les informations partagées sur LinkedIn par Armand Ruiz, vice-président produit AI Platform chez IBM, le modèle dispose d’une fenêtre de contexte de 128 000 tokens. Une information confirmée par d’autres participants à la conférence, photo à l’appui. Selon les slides capturés, le LLM peut prendre en entrée des images de « tailles arbitraires », en clair des résolutions spécifiques. Un carré de 16 x 16 pixels représenterait un token, selon le fichier JSON listant la configuration de Pixtral 12B. Il traite par défaut des images d’une taille de 1024x1024 pixels.
De son côté, Redpoint précise que « le LLM peut identifier des notes manuscrites, des photos, des formules de mathématiques et des diagrammes complexes ». Il pourrait également propulser des assistants visuels et réaliser des tâches OCR.
Un retard à rattraper
Lors de son « sommet », Mistral AI a tout de même partager de premiers benchmarks laissant entendre que Pixtral 12B serait au niveau ou légèrement au-dessus de Claude 3 Haiku, Gemini 1.5 8B, Qwen2-VL-7B ou encore Phi-3 Vision dans les domaines cités ci-dessus. GPT-4o et Claude 3,5 Sonnet seraient devants, mais les écarts sur les différents benchmarks laissent entendre que Mistral AI, malgré son retard dans le domaine multimodal, serait en bonne voie.
Pour rappel, Anthropic, OpenAI et Google ont tous lancé leurs LLM multimodaux entre la fin de l’année 2023 et le début 2024. Reste à déterminer si les entreprises accapareront cette technologie ainsi que les gains qu’elles pourraient en tirer par rapport aux outils OCR et d’analyse d’images existants.