Laurent - stock.adobe.com

LLM : avec Granite 3.0, IBM recherche l’efficience pour les entreprises

Alors que les fournisseurs de LLM se détournent des licences open source, IBM maintient son approche et entend répondre aux besoins des entreprises avec de petits modèles plus spécialisés, plus efficients. Reste qu’il doit convaincre les développeurs.

IBM a publié lundi sa nouvelle famille de grands modèles de langage Granite sous une licence open source Apache 2.0.

Les modèles Granite 3.0 comprennent des SLM et des LLM tels que :

  • Granite-3.0-8B-Instruct, Granite-3.0-2B-Instruct, Granite-3.0B-Base et Granite-3.0-2B-Base ;
  • des modèles garde-fous, dont Granite-Guardian-3. 0-8B et Granite-Guardian-3.0-2B ;
  • et les modèles « Sparse Mixture of Experts », à savoir Guardian-3.0-3B-A800M-Instruct, Granite-3.0-1B-A400M-Instruct, Granite-3.03B-A800M-Base et Granite-3.0-1B-A400M Base.

Selon IBM, les modèles linguistiques denses ont été entraînés sur plus de 12 000 milliards de tokens de données provenant de 12 langues différentes et de 116 langages de programmation. Les modèles SMoE (1 et 3 milliards de paramètres) ont été entraînés à partir d’un corpus de 10 000 milliards de tokens.

Les deux pans de la collection utilisent la fonction d’activation MLP SwiGLU, rmsnorm et l’encodage rotatif des embeddings ROPE. En revanche, les modèles denses ont le droit à un mécanisme d’attention groupé (GQA). Ce sont des mécanismes d’architecture couramment utilisés par Meta, Google ou Mistral AI.

D’ici la fin de l’année, les modèles 8B et 2B prendront en charge une fenêtre de contexte étendue atteignant 128 000 tokens (contre 4 000 tokens actuellement). IBM entraînera un modèle multimodal à partir de cette base dense.

Des modèles SMoE entraînés à bon escient

Contrairement à la plupart des travaux des laboratoires les plus populaires, IBM n’utilise pas la technique du mélange épars d’experts pour augmenter la taille des modèles, mais pour en abaisser la consommation a l’inférence. Ainsi, les mentions AXXXM donnent le nombre de millions de paramètres actifs à l’inférence, respectivement 400 et 800 millions de paramètres pour les modèles SMoE 1 et 3B. En clair, avec le bon format de quantisation (compression), un CPU, un smartphone, voire un appareil IoT pourra les exécuter.

En outre, les chercheurs d’IBM appliquent les résultats de travaux de pairs en la matière : en multipliant le nombre d’experts, ici 32 et 40, ils espèrent augmenter le nombre d’interactions entre eux et les performances des SLM.

De même, ils ont mis en place un mécanisme permettant de traiter tous les tokens reçus par les experts ainsi qu’un répartiteur de charge afin qu’ils soient traités plus rapidement.

Tout comme Llama Guard et Gemma Guard, les modèles « open weight » Granite Guardian 3.0 permettent aux développeurs d’appliquer des garde-fous en vérifiant comment un modèle d’IA réagit à des risques tels que les préjugés sociaux, la haine, la violence et le piratage.

Les modèles Granite 3.0 prendront en charge des applications telles que les systèmes RAG, le service à la clientèle, l’automatisation informatique et la cybersécurité.

L’entraînement de Granite 3.0 8B a consommé 757 MWh

Ces LLM ont été entraînés sur le data center/HPC Blue Vela. Ce HPC rassemble des serveurs Dell PowerEdge XE9680 équipés de biprocesseurs Intel Xeon Scalable 48 cœurs et de 8 GPU Nvidia H100 (80 VRAM HBM3e SXM5). Chaque nœud est doté de 10 adaptateurs de canal hôte (HCA) InfiniBand NVIDIA ConnectX-7 NDR (8 pour le calcul, deux pour le stockage). « Blue Vela utilise une interconnexion InfiniBand de 3,2 Tbit/s pour faciliter la communication entre les nœuds », indiquent les chercheurs d’IBM.

Pour entraîner le modèle de huit milliards de paramètres, IBM a exploité 768 GPU, soit 96 nœuds. Pour les modèles de plus petites tailles, le fournisseur a réuni des clusters de 128 et 256 GPU H100.

Au total, Blue Vela compte 128 nœuds de calcul répartis en quatre îlots interconnectés pour un total de 1 024 GPU Nvidia H100 (82 To de VRAM cumulé) et 256 To de mémoire vive.

« En outre, Blue Vela utilise un sous-système de stockage séparé et dédié, conçu autour de l’écosystème IBM Spectrum Scale et du nouveau système IBM Storage Scale System 6000 ».

Avec les technologies Infiniband et PCIe 5, « chaque appliance IBM SSS 6000 est capable de fournir un débit supérieur à 310 Go/s en lecture et 155 Go/s en écriture ». Le groupe aurait commencé par déployer deux appliances SSS 6000 dotées de 48 SSD NVMe U2 G4 de 30 To chacun pour une capacité totale proche de 3 pétaoctets de stockage brut. Son déploiement de l’Infiniband lui permettrait de connecter jusqu’à 32 appliances de ce type.

Blue Vela consommerait « 100 % d’énergie renouvelable ». IBM aurait mis neuf mois à trouver, puis installer la bonne configuration d’alimentation, en s’appuyant dans un premier temps sur un mode de fonctionnement dégradé en matière de redondance (contournement temporaire des onduleurs, modifications des panneaux de distribution d’énergies des baies) afin de récupérer environ 70 % de puissance électrique. L’ensemble des fonctions de sécurité et de redondance devrait être rétabli à la fin de l’année. L’entreprise ne dit pas où est installé ce centre de données alimenté en énergie verte, mais il afficherait un PUE de 1,3.

Lors de l’entraînement de Granite 3.0 - 8B, le groupe de recherche a mesuré une consommation totale de 757 MWh, contre 64,5 MWh pour l’entraînement du plus petit modèle SMoE Granite 3.0 1B A400M.

L’approche open source

La collection Granite 3.0 voit le jour, alors que de plus en plus de fournisseurs s’orientent vers de petits modèles de langage, mais que les spécialistes (dont Meta et Mistral AI) limitent l’accès à leurs modèles autrefois plus ouverts.

« Au cours des 25 dernières années, l’étalon-or de l’open source est la licence Apache », déclare Rob Thomas, vice-président senior et directeur commercial d’IBM, lors d’une conférence de presse sur les nouveaux modèles. « Nous avons choisi cette licence pour une très bonne raison ».

IBM fait le pari que l’avenir de l’IA est ouvert, selon Andy Thurai, analyste chez Constellation Research. « Ils proposent des modèles plus petits, plus efficaces et plus transparents qui sont entraînés de manière éthique et créés de manière responsable pour se différencier », considère-t-il.

« IBM ne cherche pas à gagner de l’argent en concédant des licences pour ces modèles, mais elle souhaite que les organisations utilisent sa plateforme Watsonx pour les exécuter ou pour les affiner ou construire un nouveau modèle dérivé », ajoute Andy Thurai.

Par rapport aux générations précédentes, les modèles Granite 3.0 semblent plus efficaces et plus précis, observe Patrick Moorhead, analyste en stratégie chez Moor Insights.

Entre 70 et 45 % de données proviennent du Web suivant la phase d’entraînement

« Cela me semble logique, car les modèles n’ont pas été entraînés sur des “données mondiales” », considére Patrick Moorhead. Les données mondiales comprennent l’internet, les divertissements et les vidéos grand public. Au lieu de cela, IBM aurait utilisé des données d’entreprise telles que des données provenant de documents et de feuilles de calcul.

Soyons clairs, Patrick Moorhead extrapole le travail d’IBM. Les chercheurs de Big Blue font preuve d’une transparence exemplaire par rapport à leurs confrères de Meta, de Google Research ou de Mistral AI. Et il est très aisé d’infirmer les propos de l’analyste.

D’après IBM, les modèles Granite 3.0 ont été préentraînés en deux phases. Dans la première phase, 69,5 % des données utilisées proviennent du Web, tandis que 19 % sont issues de dépôts de code. Dans la seconde phase, la portion du corpus Web tombe à 45 %, tandis que les données de qualité (maths, code, recherche académique, domaines spécifiques, etc.,) sont présentes dans des proportions moindres, mais égales.

Ils ont également utilisé des données synthétiques pour apprendre aux modèles diverses tâches de génération de code, multilingues, d’utilisation d’outils, etc.

La majorité des travaux de fine-tuning ont été effectué en anglais.

Mieux, selon IBM, l’ensemble des techniques fonctionnent. Sûrement pas aussi bien que le groupe IT le laisse entendre dans ses communiqués, mais en moyenne, les LLM et SLM sont « au niveau », voire un peu au-dessus de leur compétiteur, à savoir Llama 3.1 8B, Llama 3.2 8B et 3B, Mistral 7B ainsi que Gemma 2.6B et Gemma 2.9B. Évidemment, il convient de vérifier les dires de Big Blue au cas par cas.

Quelques faiblesses

Malgré ces avantages, la faiblesse d’IBM sur ce marché de l’IA générative en évolution rapide est de ne pas avoir l’avantage du « premier arrivé », note M. Thurai.

« Il faudra beaucoup d’effort à IBM pour convaincre les clients de passer à sa plateforme », considère-t-il. D’autant que ses LLM sont également disponibles sur Ollama et Huggingface. Ils seront bientôt accessibles depuis les catalogues Nvidia NIM (déjà en préversion) et le jardin de modèles de Google Cloud Vertex AI.

En outre, bien qu’IBM ait montré que les modèles Granite peuvent être utilisés pour différents cas d’usage en entreprise, les clients devront également les tester, note Arun Chandrasekaran, analyste chez Gartner.

« Il est certain qu’ils [les chercheurs d’IBM] partent d’un peu plus loin lorsqu’il s’agit d’appliquer de grands modèles de langage pour des cas d’utilisation orientés vers le traitement du langage naturel », affirme l’analyste de Gartner.

Ici, il est question des tâches de résumé, de réponses à des questions, d’interactions avec des usagers.

« IBM doit être plus clair et fournir un outil de sélection qui permettra aux clients d’utiliser le bon modèle pour le bon cas d’usage et qui permettra aux développeurs de choisir la bonne méthode d’implémentation »
Arun ChandrasekaranAnalyste, Gartner

De fait, les parangonnages partagés par IBM donnent raison à l’analyste. C’est une fois confronté aux tests de résolutions de problèmes de mathématiques et de code que les LLM Granite 3.0 s’en sortent généralement mieux.

Les clients doivent également savoir quand utiliser les modèles Granite plutôt qu’un modèle tiers, puisque les deux sont disponibles sur sa plateforme, d’après Arun Chandrasekaran.

« IBM doit être plus clair et fournir un outil de sélection qui permettra aux clients d’utiliser le bon modèle pour le bon cas d’usage et qui permettra aux développeurs de choisir la bonne méthode d’implémentation », recommande-t-il.

IBM a également dévoilé la nouvelle génération de son assistant de programmation Watsonx, basé sur les modèles Granite. Il offre une assistance générale dans divers langages de code, y compris Java, C++ et Python.

Enfin, Big Blue a présenté l’extension de sa plateforme de livraison alimentée par l’IA, IBM Consulting Advantage. Cette plateforme contient des agents, des applications et des cadres d’IA pour aider les consultants d’IBM à travailler avec les clients.

Dans le cadre de cette extension, les modèles linguistiques Granite 3.0 deviendront le modèle par défaut de Consulting Advantage.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM