Red Hat acquiert Neural Magic pour mieux appréhender le LLMOps
Red Hat s’apprête à acquérir Neural Magic, un des contributeurs majeurs d’un utilitaire LLMOps clé utilisé par OpenShift AI et par l’ensemble des acteurs du marché de l’IA : vLLM.
Le rachat, dont le montant n’a pas été dévoilé, a été rendu public cette semaine lors de la KubeCon + CloudNativeCon North America. Plus spécifiquement, Red Hat a organisé un sous-événement en marge de la KubeCon, nommé l’OpenShift Commons.
Neural Magic, basée à Somerville dans le Massachusetts, se spécialise dans les techniques avancées d’optimisation des LLM qui sous-tendent les applications d’IA générative. La société a été fondée en 2018 par un professeur et chercheur du MIT dans le but de les découpler des GPU, une ressource rare et chère.
En sus de son expertise en matière d’inférence, Neural Magic commercialise une distribution de vLLM embarquant des librairies de quantification (ou quantization en VO, ici Merlin INT4) et de parcimonie des calculs (DeepSparse, SparseML, SparseZoo).
Les dirigeants de Red Hat en sont certains. L’accent mis par Neural Magic sur la prise en charge d’un plus grand nombre d’infrastructures sur lesquelles les LLM peuvent s’exécuter est conforme à la fois à la stratégie de cloud hybride de Red Hat pour ses plateformes de développement et à son engagement pris plus tôt cette année à soutenir le développement de modèles open source.
« Nous pensons que l’avenir de l’IA va s’accélérer grâce à l’open source », a déclaré Chris Wright, CTO de Red Hat, lors d’une conférence de presse mardi. « Notre objectif est de créer cette infrastructure d’IA évolutive qui permet à nos clients d’entraîner ou d’inférer [des modèles d’IA] partout où cela est pertinent pour leur activité. »
Neural Magic emploie deux des 10 principaux contributeurs du projet vLLM, décrit sur sa page GitHub comme « un moteur d’inférence et de service à haut débit et à mémoire efficace pour les LLM ». La bibliothèque vLLM est livrée dans le cadre du projet RHEL AI et OpenShift AI de Red Hat depuis le milieu de l’année. Celle-ci s’appuie sur un autre framework inclus dans OpenShift AI : Ray.
Au sein d’OpenShift AI, vLLM fonctionne de manière similaire à un serveur d’exécution d’application Web traditionnel, mais est optimisé pour exécuter un LLM, selon Derek Carr, ingénieur senior distingué chez Red Hat, dans un entretien avec SearchITOperations, une publication sœur du MagIT, lors d’OpenShift Commons.
« Dans une application Java traditionnelle, vous disposez d’un fichier JAR [archive Java] ou WAR [archive d’application Web] et vous le transmettez à un middleware comme [Apache] Tomcat ou JBoss pour l’exécuter », explique Derek Carr. « [Avec vLLM], au lieu de lui fournir un fichier JAR, vous lui transmettez un fichier LLM », illustre-t-il.
Cette acquisition signifie que Red Hat va faire appel à des ingénieurs spécialisés dans l’entraînement, la mise en œuvre et l’inférence de LLM.
Dans un même temps, les entreprises sont confrontées à des problèmes de retour sur investissement et de confidentialité des données liés à l’IA générative. Ces problèmes poussent certaines d’entre elles à étudier l’idée d’héberger elles-mêmes les charges de travail liées à la GenAI. Selon les analystes du secteur, un fournisseur cloud facture la ressource GPU à l’heure et il peut être tenté d’exploiter les données sensibles e ses clients afin d’entraîner ses propres modèles.
« Avoir des modèles plus petits et plus proches de l’utilisateur et pouvoir gérer leur prolifération sont des défis de taille et cette acquisition pourrait Red Hat à les relever », avance Rob Strechay, analyste chez TheCube Research. « OpenShift AI se porte extrêmement bien dans les entreprises… qui tentent toujours d’obtenir un retour sur investissement », poursuit-il. « Cet ajout permettra d’intégrer les modèles dans les moindres recoins d’une entreprise, par exemple dans les ateliers des usines ou dans les équipements Edge des opérateurs de télécommunications. »
Les plateformes de développement pivotent vers le LLMOps
Les utilisateurs d’OpenShift AI qui ont fait une présentation à Commons ont exprimé leur intérêt pour vLLM et d’autres fonctionnalités LLMOps d’OpenShift AI. Mais il est encore tôt pour les exploiter, même pour des entreprises aussi expérimentées en IA et en machine learning que Mastercard.
Mardi, les représentants de l’émetteur de cartes de crédit ont parlé du lancement récent de la version 2.0 d’une plateforme « AI Workshop » qu’ils maintiennent pour les services d’opérations d’apprentissage automatique. Elle est désormais basée sur OpenShift AI.
Cette version 2.0 propose un « terrain de jeu » en libre-service qui automatise les déploiements d’Apache Spark en coulisses. L’approche LLMOps est toujours sur la feuille de route, déclare Ravishankar Rao, ingénieur logiciel principal chez Mastercard, auprès de SearchITOperations.
« Nous proposerons bientôt une solution LLMOps à la demande basée sur les NIM [des microservices d’inférence] de Nvidia, et nous souhaitons intégrer des cas d’usage à exécuter sur des données spécifiques à l’entreprise », informé Ravishankar Rao. « Nous travaillons avec OpenShift AI pour évaluer vLLM. »
Les ingénieurs en calcul haute performance (HPC) de l’Université de New York ont déclaré que leur plateforme subissait encore des « difficultés de croissance » en matière de LLMOps, en partie à cause du chevauchement avec les plateformes Kubernetes et cloud développées en interne qui doivent être migrées vers OpenShift AI.
« Nous en sommes encore à la phase pilote préliminaire de quelques éléments isolés avec OpenShift AI », renseigne Carl Evans, spécialiste senior du calcul haute performance à l’université de New York, lors d’une séance de questions-réponses à Commons. « Mais il y a des éléments que nous souhaitons intégrer en interne [à partir du cloud public]… pour protéger les données des étudiants. »
Avec sa feuille de route LLMOps, Red Hat doit dépasser ses rivaux
Les fonctionnalités LLMOps d’OpenShift sont également encore en cours de développement. Par exemple, lorsque les utilisateurs demandent une instance d’un LLM et qu’il démarre dans vLLM, d’autres utilitaires open source d’OpenShift orchestrent la manière dont ce modèle utilise les ressources matérielles CPU et GPU sous-jacentes dans les clusters Kubernetes. Parmi ces utilitaires figurent Kueue, un contrôleur de mise en file d’attente de tâches, et l’allocation dynamique des ressources (DRA) pour Kubernetes. DRA, lancé en 2022, a été mis à l’honneur lors de la KubeCon de l’année dernière en raison des préoccupations de la communauté en matière d’approvisionnement et de coût des GPU.
Avec DRA, OpenShift AI peut définir des allocations de ressources pour les utilisateurs avec des descriptions d’appareils spécifiques (par exemple, un GPU Nvidia A100 dûment identifié) plutôt que l’approche précédente basée sur un pool général de CPU ou de GPU. Kueue propose des contrôles précis qui gèrent les conflits et hiérarchisent les allocations de ces ressources entre plusieurs charges de travail au fur et à mesure qu’elles les consomment.
DRA et Kueue ont évolué séparément en amont. Au cours de l’année prochaine, Red Hat prévoit d’améliorer leur intégration sous OpenShift AI, selon Derek Carr lors d’une présentation liminaire lors de l’événement Commons.
« DRA n’est pas encore disponible dans Kubernetes, donc nous voyons des éléments très récents intégrés dans le produit », remarque Derek Carr. « Mais c’est un objectif majeur pour l’année à venir : s’assurer que les deux communautés travaillent bien ensemble. »
D’autres fonctionnalités livrées cette semaine avec OpenShift AI 2.15 complètent vLLM, comme un registre de modèles en préversion technique que Red Hat a offert à la communauté Kubeflow. La version 2.15 prend également en charge un runtime vLLM pour le package du projet KServe de Knative, Istio et Kubernetes qui sous-tend les serveurs de modèles d’OpenShift AI.
Le registre de modèles d’IA OpenShift fonctionne de manière similaire à un registre de conteneurs, c’est-à-dire un emplacement centralisé pour stocker et gérer divers modèles d’IA prédictifs et génératifs. Toutefois, il n’est pas encore intégré à Quay de Red Hat et à d’autres registres de l’Open Container Initiative (OCI). Cette prise en charge est prévue pour l’année prochaine, selon les responsables de Red Hat. Cependant, depuis cette semaine, OpenShift AI prend en charge les Modelcars de KServe, qui rationalisent la récupération de modèles à l’aide d’images de conteneurs OCI.
Pourtant, le marché des modèles d’IA générative continue d’évoluer à un rythme vertigineux.
« Les modèles ne sont plus les “stars”. C’est dans les agents et dans la gestion des agents que les entreprises vont investir » anticipe Rob Strechay.
Neural Magic pose les bases du support de l’IA agentique chez Red Hat. Mais des concurrents comme Nutanix rattrapent leur retard dans le domaine des LLMOps, ajoute-t-il.
« Nutanix a également lancé son équivalent d’OpenShift AI », a-t-il déclaré. « Il s’agissait auparavant de “GPT-in-a-box”, désormais rebaptisé Nutanix Enterprise AI, qui est déployé sur Kubernetes, un élément de l’acquisition de D2iQ et en partenariat avec Nvidia. »
Red Hat ne construit pas non plus son propre lac de données pour la gestion des données d’IA – un domaine que Rob Strechay a déclaré que la société ou sa société mère IBM pourraient chercher à cibler avec de nouvelles acquisitions.
« Red Hat a beaucoup à offrir en matière d’open source, mais ce n’est pas la même chose que d’utiliser Starburst [partenaire de Dell] pour la gouvernance en plus du projet open source Trino [moteur de requête] », a déclaré Strechay. « Nous savons que certaines entreprises [de gestion de données] intéressantes sont à court de [financement]. … Mais la plupart des organisations étoffent leur pile d’IA. »