Phi-3-Mini : Microsoft a trouvé la recette du petit LLM très performant
Les chercheurs de Microsoft affirment que les performances du Phi-3-mini sont comparables à celles de GPT 3.5 et Llama 3-8B, beaucoup plus grands, et qu’il peut fonctionner sur un iPhone 14 équipé d’une puce A16 Bionic.
Cette semaine, Microsoft a lancé Phi-3, une collection de modèles de langage « open weight » sous le signe de la frugalité. Celle-ci comprend trois modèles, dont deux LLM (Large Language Model) dotés respectivement de 7 milliards (Phi-3-Small) et de 14 milliards de paramètres (Phi-3-Medium). Comme lors de la présentation de Phi-2, le géant du cloud met l’accent sur son « Small Language Model » (SLM) Phi-3-Mini et ses 3,8 milliards de paramètres.
De fait, pour l’instant seul Phi-3-mini est disponible au catalogue de modèles Azure AI Studio de Microsoft, sur la plateforme communautaire Hugging Face et l’outil de déploiement local Ollama. Microsoft prévoit d’ajouter prochainement les deux autres modèles au catalogue. Phi-3-Mini rejoindra également Nvidia NIM.
Le coût de l’utilisation de grands modèles de langage (LLM) de centaines de milliards de paramètres – hébergés chez les fournisseurs de cloud AWS, Google et Microsoft – incite de nombreuses entreprises à évaluer les SLM comme une alternative moins coûteuse. Le projet Phi de Microsoft reflète la conviction de l’entreprise que les clients professionnels voudront à terme disposer d’un grand nombre de choix de modèles.
« Certains clients n’auront besoin que de petits modèles, d’autres de grands modèles, et beaucoup voudront combiner les deux de différentes manières », anticipe Luis Vargas, vice-président de l’IA chez Microsoft, dans un article publié sur le site Web de l’entreprise.
Une approche également moins coûteuse à l’entraînement. Phi -2 avait été entraîné avec 96 GPU A100 (80 Go de VRAM) pendant 14 jours. Dans ce cas, chaque variante Phi-3 mini a réclamé seulement 7 jours pour être entraînée à l’aide d’un cluster totalisant 512 GPU Nvidia H100 (80 Go de VRAM). L’entraînement de la collection a réclamé trois mois de travail.
Phi-3-Mini : petit, mais costaud, il ferait jeu égal avec Llama 3-8B
À noter que, depuis le lancement, les plus petits modèles des collections grossissent : Phi-1-mini est doté de 1,5 milliard de paramètres, Phi-2 de 2,7 milliards de paramètres.
Toutefois, Microsoft énumère plusieurs avancées SLM avec le Phi-3-mini. À commencer par la proposition de deux variantes : Phi-3-mini-4K et Phi-3-mini-128K. En clair, le modèle a été entraîné avec une fenêtre de contexte de 4 000 tokens et l’équipe de recherche s’est ensuite appuyée sur le mécanisme LongROPE, qui lui a permis d’étendre le nombre d’informations que le LLM peut accueillir en entrée à 128 000 tokens. Et ce au prix d’une petite perte de performance, une fois confronté aux benchmarks génériques. Cette variante-là peut être utilisée pour résumer de longs documents (plus de 200 pages en anglais). À noter que les chercheurs ont fait varier l’architecture de Phi-3-Medium qui comprend davantage de mécanismes spécifiques que ces deux homologues. Phi-3 Small et Medium ont davantage été conçus pour prouver que la méthode d’entraînement de Phi-3-Mini est valable à plus large échelle.
Dans un rapport technique, les chercheurs affirment que sa qualité « semble équivalente » à celle de Mixtral 8x7B de Mistral AI (46 milliards de paramètres, 13 activés à l’inférence), et à celle de GPT 3.5-1106 d’OpenAI.
Phi-3-mini-4K obtient 68,8 sur 100 au benchmark de compréhension du langage MMLU, contre 68,4 % pour Mixtral 8X7B, 71,4 % pour GPT-3.5 1106 et 66 % pour LLama 3-8B. Au test de mathématiques GSM-8K 0 shot, Phi-3-mini s’en sort très bien avec un score de 82,5 %, quand ces trois modèles plus grands obtiennent respectivement 64,7 %, 78,8 % et 77,4 %. Dans les tests de connaissances de programmation HumanEval et du langage Python – MBPP – le SLM affiche un score de 59,1 % et de 53,8 %, cette fois-ci derrière son principal concurrent, LLama 3-8B. Dans l’ensemble, le protocole de tests réunissant 20 benchmarks met en valeur les capacités de « raisonnement » de Phi-3-mini qui égale ou surpasse le modèle de Meta, même si les chercheurs précisent que d’autres approches pourraient générer des résultats différents.
Le secret ? Des données triées sur le volet et un programme d’entraînement bien préparé
Comme Phi 2, Phi 3-mini s’appuie sur un transformer « decoder only » hérité de Llama 2 et sur le même tokenizer (l’outil chargé de découper les mots en unité lexicale, les tokens) capable de traiter 32 000 tokens à la fois. Il est d’ailleurs hautement compatible avec les librairies développées pour la collection Llama 2.
Les chercheurs ont attribué les performances du Phi-3-mini à leur méthodologie d’entraînement, tirés de l’article « Textbooks is all your Need ». Ils ont entraîné le modèle sur 3 300 milliards de tokens, des données Web « fortement filtrées » provenant de sources Internet ouvertes extraites avant le mois d’octobre 2023 et sur des données synthétiques générées par un LLM. Le préentraînement a été réalisé en « deux phases disjointes et séquentielles ». Dans une première phase, le modèle « apprend » des connaissances générales et de langage à partir des sources Web et dans une deuxième phase, les données Web sont davantage filtrées et combinées avec les données synthétiques pour « apprendre au modèle des tâches de raisonnement logique et diverses compétences de niche ». C’est également l’approche privilégiée par Snowflake pour son LLM Arctic.
Le « post-entraînement », lui, a été réalisé en deux étapes, la première s’appuyant sur un fine-tuning supervisé (Supervised Fine-tuning ou SFT) et la seconde sur la technique « direct preference optimization » (DPO). « Le SFT s’appuie sur des données de haute qualité et triées sur le volet dans divers domaines, tels que les mathématiques, le codage, le raisonnement, la conversation, l’identité du modèle et la sécurité en anglais », précisent les chercheurs. « Les données utilisées lors de la DPO couvrent les formats conversationnels, le raisonnement logique et nos efforts en matière d’IA responsable ».
Phi-3-mini peut notamment servir à résumer de longs documents ou des tendances dans des rapports d’études de marché. Les services de marketing et de vente pourraient également l’utiliser pour rédiger des descriptions de produits ou des messages sur les médias sociaux. Phi-3-mini pourrait également servir de base à un chatbot destiné à répondre aux questions de base sur les produits et les services.
Bien que le modèle Phi-3-mini atteigne un niveau de compréhension du langage similaire à celui des modèles plus grands, il est limité dans la mesure où il n’a pas la capacité de stocker autant d’informations que les LLM de taille plus conséquente. Un problème qui peut être résolu en le connectant à un moteur de recherche, signalent les chercheurs. En outre, ce petit modèle est principalement limité à l’anglais, selon le rapport technique. « L’exploration des capacités multilingues pour les petits modèles linguistiques est une prochaine étape importante », ce qui implique d’utiliser davantage de données multilingues bien que « les résultats initiaux avec phi-3-small sont prometteurs ». C’est l’exercice tenté par les chercheurs de CentraleSupélec et d’ILLUIN Technology avec CroissantLLM.
Les chercheurs ont également indiqué qu’une version compressée de Phi-3-mini peut fonctionner sur un iPhone 14 d’Apple équipé d’une puce A16 Bionic à la vitesse de 12 tokens par seconde. C’est un peu plus rapide que la vitesse moyenne de lecture humaine (entre 5 et 10 tokens par seconde), mais cela reste relativement lent par rapport à l’expérience ChatGPT. Le modèle utiliserait 1,8 Go de mémoire et pèse 2,3 Go. Un membre de la communauté l’a déjà adapté à Raspberry Pi 5 : il génère du contenu à la vitesse de 4 tokens par seconde.
Microsoft précise toutefois que le SLM nécessite l’installation de la librairie Flash Attention, plus à l’aise avec les GPU Nvidia A100 (40 ou 80 Go de VRAM), A6000 (48 Go de VRAM) et H100 (40 ou 80 Go de VRAM). Un mode de compatibilité avec la carte V100 (32 Go de VRAM) ainsi que des packages ONNX et GGUF pour d’autres GPU et CPU Nvidia, AMD et Intel sont toutefois proposés par les ingénieurs de Microsoft.
Les SLM dans le centre de données
Microsoft et d’autres fournisseurs de modèles reconnaissent que les LLM sont excessifs pour de nombreuses tâches d’IA générative que les entreprises peuvent exécuter en interne sur un serveur dans le centre de données, avance un analyste de Gartner. Microsoft n’est pas le seul à travailler sur ce sujet : « Les fournisseurs de modèles tentent de trouver un juste équilibre entre les performances et la taille des modèles par rapport au coût de leur fonctionnement », indique Arun Chandrasekaran, analyste chez Gartner.
Arun ChandrasekaranAnalyste, Gartner
En fin de compte, les entreprises choisiront parmi différents types de modèles, y compris les LLM et SLM open source et propriétaires, considère-t-il. Toutefois, le choix du modèle n’est que la première étape de l’exploitation de l’IA en interne.
Il faut également choisir les outils permettant de contrôler et d’affiner les résultats du modèle et d’empêcher les modèles de divulguer des données sensibles. Il y a aussi le coût de l’infrastructure, y compris les serveurs GPU, le stockage sous-jacent et le réseau.
« Il y a beaucoup de travail à faire », déclare Arun Chandrasekaran.
Les entreprises qui utilisent des modèles basés sur le cloud auront la possibilité d’utiliser les outils du fournisseur. Par exemple, Microsoft a récemment introduit des outils de développement GenAI dans Azure AI Studio qui détectent les sorties erronées du modèle et surveillent les entrées de l’utilisateur et les réponses du modèle.
Que le modèle soit dans le cloud, dans un centre de données ou sur l’ordinateur portable du collaborateur, les entreprises doivent établir un cadre pour évaluer le retour sur investissement, selon les experts.
En tout cas, Phi-3-mini rencontre déjà un succès important auprès des internautes. Sur HuggingFace, sa version instruct a été téléchargée plus de 56 000 fois et plus de 33 000 fois sur Ollama.