master1305 - stock.adobe.com
Alibaba Cloud, un poids lourd des LLM « open weight »
Derrière Qwen, des collections de grands modèles de langage qui monopolisent le haut des classements des LLM « open weight », se cache Alibaba Cloud. Le fournisseur de cloud chinois entend bien faire jeu égal avec OpenAI, Anthropic, Mistral AI, mais aussi Google et Microsoft.
Qwen. Pour le commun des mortels, ce terme fait phonétiquement penser à un bout de peau de porc qu’on laisse au bord de son assiette. Hormis cette proximité sonore, rien à voir avec le lard : Qwen est le diminutif de « Tong Yi Qian Wen », qui se peut se traduire en français par « répondre à mille questions de manière unifiée ».
Les équipes qui déploient de grands modèles de langage y voient déjà un produit de qualité. Les modèles qui portent ce nom caracolent en tête des parangonnages ouverts depuis plusieurs mois, sur la plateforme communautaire Hugging Face.
Qwen c’est aussi l’équipe éponyme au sein du fournisseur cloud chinois Alibaba Cloud à l’origine de ces grands modèles de langage lancé en octobre 2023. Elle compterait actuellement 124 chercheurs et ingénieurs en IA, selon le dépôt public de Qwen sur Hugging Face.
Après Qwen 1.0, puis Qwen 1.5, en février 2024 et Qwen 2.0 en juin 2024, le 18 septembre dernier, elle a publié Qwen 2.5, une collection de LLM « open weight » (sous licence Apache 2.0, ce qui est de plus en plus rare) mise à jour au cours du mois d’octobre 2024.
Les variantes de base ou instruites de Qwen 2.5 sont disponibles en sept tailles : 0,5, 1,5, 3, 7, 14, 32 et 72 milliards de paramètres. Qwen 2.5 a également le droit à une version « Coder » et « Math ».
Dotés d’une architecture dense, comme les principaux modèles de Meta et de Mistral AI, les LLM Qwen 2.5 sont entraînés avec des jeux de données incluant « jusqu’à 18 000 milliards de tokens ». Dans le cas, de Qwen 2.5 Coder, l’équipe a exploité 5 500 milliards de tokens, principalement du code disponible publiquement. Ces modèles disposent d’une fenêtre de contexte de 128 000 tokens et peuvent générer jusqu’à 8 000 tokens. Le laboratoire de recherche assure que plus de 29 langues sont prises en charge, dont le chinois, l’anglais, le français, l’espagnol, l’allemand, l’italien, le portugais ou encore le japonais.
La version instruite de Qwen 2.5-72B serait supérieure à ces équivalents Mistral Large 2, Mixtral 8x22B, Llama 3.1 70B et ne se ferait que légèrement distancé par la variante de Llama 3.1 incluant 405 milliards de paramètres.
Ces résultats sont adoubés Hugging Face.
L’attrait communautaire de Qwen 2.5
« Qwen 2.5-72B est désormais le modèle par défaut de HuggingChat », déclare Victor Mustar, responsable du design produit chez Hugging Face, sur LinkedIn. « Qwen a établi de nouvelles références pour les modèles open-weight, réduisant considérablement l’écart avec GPT-4 et Sonnet-3.5. Pour de nombreuses tâches d’assistance quotidienne, il surpasse souvent les autres modèles et constitue la meilleure option disponible ».
Quant à Qwen-VL-Plus, le modèle de langage-vision d’Alibaba Cloud, il égale ou bat Claude 3.5 Sonnet, GPT4-o, DeepSeek V2.5 et Llama 3.1 405B sur les tâches dites multimodales.
Mais l’attention de la communauté open source est davantage portée sur la disponibilité de Qwen 2.5 Coder 32B. Celui-ci serait aussi performant que GPT4-o et Sonnet 3,5 lors des benchmarks, mais aussi devant DeepSeek 33B Instruct et Codestral 22B. Les premiers tests tendent à prouver les parangonnages effectués par le fournisseur de cloud.
Si elle s’est essayée à l’exercice du mélange épars d’experts (SmoE), l’équipe Qwen continue de prouver la pertinence des LLM à l’architecture dense. L’équipe exploite divers éléments populaires chez les équipes de Mistral AI et Meta (SwiGLU, RMSNorm, RoPE, Attention QKV bias).
Les modèles sMoE demeurent plus complexes à entraîner. D’autant que l’équipe chinoise semble avoir développé une solide expertise en matière de post-entraînement eu égard au nombre de techniques utilisées citées dans ses rapports.
Outre l’aspect « open weight » et le fait que les LLM soient pris en charge par différents frameworks (dont Ollama, LM Studio, vLLM, TensorRT ou encore les SDK de Hugging Face), les LLM d’Alibaba Cloud gagnent en popularité.
Alibaba Cloud veut rester (très) compétitif
Une popularité que le fournisseur entend bien monétiser. Il dispose d’une offre commerciale à travers Alibaba Cloud Model Studio. Cette plateforme permet d’accéder par API aux variantes propriétaires Qwen Max, Plus, et Turbo.
Avec Qwen 2.5 Turbo, le fournisseur cloud s’est essayé à porter la fenêtre de contexte de son LLM à 1 million de tokens, comme Google l’a déjà fait pour Gemini, mais se compare à OpenAI.
En Chine, « le prix reste à 0,3 ¥ pour un million de tokens (0,041 dollar ou 0,040 euro/1M tokens). Pour le même coût, Qwen2.5-Turbo peut traiter 3,6 fois plus de tokens que GPT-4o-mini », avance Alibaba Cloud. Ainsi pour 1 dollar, Qwen 2.5 Turbo traiterait 24 millions de tokens, contre 6,6 millions pour GPT-4o mini. L’utilisation de Qwen 2.5 Turbo est facturée 0,6 yuan pour 1 million de tokens en sortie (0,079 euro ou 0,083 dollar), contre 0,6 dollar pour le même volume avec GPT-4o mini.
Aux États-Unis et en Europe, Qwen Turbo est facturée 0,4 dollar pour 1 million de tokens en entrée et 1,2 dollar pour le même volume en sortie. En revanche, Alibaba Cloud offre 1 million de tokens pour chaque modèle pendant 30 jours.
À la fin du mois de septembre, Alibaba Cloud assurait que Model Studio aurait attiré plus de 300 000 clients, contre 90 000 en mai 2024. Le fournisseur ne détaille toutefois la taille de ses entreprises ni leur provenance.
Alibaba Cloud et l’accès aux GPU
Alibaba Cloud est concerné par les sanctions américaines envers la Chine qui réduit l’accès aux puces dédiées à l’IA, principalement celles conçues par Nvidia et AMD.
Dans son catalogue, Alibaba Cloud nomme des instances bare-metal équipées des Nvidia A10, A30, V100, T4, P4 et P100. Mais de nouvelles instances disponibles dans « quelques » régions cloud incluent des GPU comportant 40, 48 Go et 80 Go de VRAM, réclamant l’usage du framework logiciel Nvidia CUDA. Le fournisseur cloud semble avoir accès à des Nvidia A100 et, au moins à des RTX A6000. Il est mentionné dans la documentation d’Alibaba Cloud, un GPU doté d’une puissance de 39 TFLOPS en FP32, ce qui correspond à la fiche technique de cette carte. À propos d’une autre instance dotée d’un GPU affichant la même quantité de VRAM, Alibaba Cloud ne mentionne pas la puissance de calcul fournie tout en précisant qu’une seule carte peut exécuter un LLM de moins de 70 milliards de paramètres. La description laisse entrevoir un GPU équivalent aux L40 et L40S, mais la RTX A6000 pourrait également correspondre à la description.
Dans un article consacré à son architecture HPC, le géant chinois évoque l’entraînement d’un LLM propriétaire à l’aide de 2 300 GPU, a priori des Nvidia H800. Ce sont des Nvidia H100 moins performants vendus sur le marché chinois avec l’approbation des autorités américaines. En prenant une contrainte de puissance au sol de 18 mégawatts, Alibaba Cloud constate qu’un seul de ses data centers peut accueillir jusqu’à 15 000 GPU. Cela correspond à la puissance totale de Magny 2, un data center de Telehouse composé de cinq bâtiments s’étalant sur 12 000 mètres carrés, sur le campus TH3, dans les Yvelines.
À titre de comparaison, Azure AI aurait attiré plus de 60 000 entreprises, dont les grands groupes européens et américains, dixit les porte-parole de la firme de Redmond lors d’Ignite 2024. La consommation d’Azure OpenAI aurait doublé ces six derniers mois (entre mai et octobre 2024) et Microsoft observerait 2 milliards de requêtes d’entreprise par jour. AWS n’a pas détaillé les chiffres, mais évoque des « dizaines de milliers de clients » d’Amazon Bedrock. À la fin du mois de septembre, Sundar Pichai, CEO de Google, mentionnait une multiplication par 14 des appels vers les API Gemini en six mois.
Certains modèles « open weight » Qwen sont également disponibles depuis le jardin de modèles de Google Vertex AI et via Hugging Face sur Azure AI..