Laurent - stock.adobe.com
IA générative privée : Databricks veut mettre la main sur MosaicML
Databricks met 1,3 milliard de dollars sur la table pour acquérir MosaicML, un spécialiste de l’entraînement et de l’inférence de gros algorithmes de deep learning. Les deux acteurs sont sur la même longueur d’onde : ensemble, ils veulent permettre aux entreprises d’entraîner et de déployer leurs propres grands modèles de langage (LLM).
Databricks a conclu lundi un accord définitif en vue d’acquérir MosaicML pour 1,3 milliard de dollars, dans le but d’ajouter de nouvelles capacités d’IA générative à sa plateforme.
Jusqu’alors, la startup, basée à San Francisco et fondée en 2021, avait levé 37 millions de dollars en capital-risque.
MosaicML a mis au point un système d’orchestration pour l’entraînement et l’inférence de gros modèles de machine learning et de deep learning. Il permet de gérer des charges de travail sur plusieurs clouds et sur site.
Une plateforme pour optimiser l’entraînement et l’inférence de gros modèles d’IA
Accessible via un CLI ou une console Web, son orchestrateur est un control plane développé par-dessus Kubernetes qui peut gérer le déploiement de clusters multinœud, automatiser la sélection des bonnes instances de calcul suivant la charge de travail, la détection des pannes (peu importe si elle découle d’une défaillance matérielle, logicielle ou d’un « Out Of Memory ») et leur résolution.
Ce control plane communique avec un « compute plane », déployable derrière un firewall ou un VPC. Celui-ci exécute les traitements à travers plusieurs clusters et communique avec le contrôle plane des métadonnées (par exemple le type de machines utilisées) et le nom des images Docker utilisées à travers un daemon.
Pour l’inférence, cette même architecture permet de sauvegarder des « checkpoints », à savoir des versions spécifiques d’un modèle, et générer l’API qui permet de l’exposer au reste d’un SI.
Dans ce contexte, MosaicML développe la librairie PyTorch Composer, un framework d’entraînement distribué qui implémente une vingtaine de méthodes d’optimisation des architectures « transformer », constitutives (entre autres) des grands modèles de langage popularisés par OpenAI (GPT-4, ChatGPT) et Google (PaLM 2, Bard). MosaicML a également mis au point StreamingDataSet, une librairie pour faciliter la distribution des données depuis des services de stockage objet vers des instances GPU lors de l’entraînement de modèles de deep learning. Avec LLMFoundry, MosaicML fournit des consignes et des outils pour pré-entraîner, affiner, évaluer et déployer des modèles de langage (LLM).
En clair, MosaicML propose aux entreprises une partie du travail effectué par les ingénieurs de Microsoft pour OpenAI. Pour rappel, sans la librairie DeepSpeed, les modèles GPT n’auraient pas évolué aussi rapidement (et BLOOM n’aurait peut-être pas vu le jour).
MosaicML et Databricks veulent aider les entreprises à bâtir leurs propres LLM
Depuis peu, la startup met en avant la publication de deux collections de grands modèles de langage open source : MPT-7B et MPT-30B.
MosaicML se veut particulièrement transparent : nombre de paramètres et de tokens utilisés (1 billion), architecture du modèle, coûts, temps d’entraînement estimés, nombre d’époques, précision, sources des données… Pratiquement toutes les informations que des chercheurs, des autorités ou des entreprises sont en droit d’attendre. C’est l’inverse de la stratégie de Google et d’OpenAI qui ont fermé le rideau sur la conception de leurs modèles.
Les modèles MPT se distinguent par leurs architectures de type décodeur modifiées à des fins de performance et pour traiter de longs textes en entrée (par défaut jusqu’à 8 000 tokens, et jusqu’à 65 000 tokens avec MPT-7B-StoryWriter).
Databricks, quant à lui, s’illustre par le développement et la distribution commerciale d’un « data lakehouse », un lac de données dotées d’une couche ACID permettant à la fois de stocker et de traiter des données non structurées, semi-structurées et structurées depuis une même console.
Dans l’idée, une fois la plateforme de MosaicML combinée à Databricks, les clients du fournisseur pourront développer et former des modèles de langage spécifiques à leurs besoins en utilisant leurs propres données hébergées dans l’environnement sécurisé de Databricks.
Selon Kevin Petrie, analyste chez Eckerson Group, Databricks a compris comment aider les entreprises à déployer leurs propres modèles de langage.
« Cette acquisition montre que Databricks veut vraiment aider les entreprises à construire et à entraîner des modèles de langage sur sa plateforme Lakehouse », déclare-t-il. « Elle s’inscrit également dans le cadre de l’essor des “petits modèles de langage”, qui sont des modèles spécifiques à un domaine et qui améliorent la gouvernance et la capacité à prendre en charge des cas d’usage spécifique ».
Outre le gain de sécurité par rapport aux LLM publics, les petits modèles de langage que les entreprises peuvent développer avec MosaicML améliorent la précision des résultats.
Kevin PetrieAnalyste, Eckerson Group
Les modèles LLM présents sur le marché ne renvoient pas toujours des réponses précises aux requêtes, et ces hallucinations peuvent avoir un impact négatif important si les réponses d’un assistant intelligent sont utilisées pour informer une décision commerciale, précise Kevin Petrie.
« MosaicML aide les entreprises à entraîner et à affiner les modèles de langage sur leurs propres données, en améliorant la précision de leurs résultats et en réduisant le risque d’hallucinations », insiste-t-il. « Ces capacités, ainsi que l’optimisation de l’entraînement des modèles, permettront aux entreprises de construire plus facilement et à moindre coût ces modèles de langage ».
« [Les entreprises] n’ont pas besoin de chercher midi à quatorze heures avec des centaines de milliards de paramètres, à l’instar d’OpenAI et de Google », ajoute-t-il.
Donald Farmer, fondateur et directeur de ThreeHive Strategy rejoint l’avis de M. Petrie.
« Mes clients me réclament souvent comment ils peuvent développer leurs propres LLM sur des données spécifiques à leurs besoins », affirme-t-il. « La réponse de ma part a fréquemment été Mosaic ».
L’analyste voit là un moyen pour les entreprises de mettre en place les pratiques MLOps nécessaires au suivi du cycle de vie des modèles.
« Avec Mosaic intégré à Databricks, les entreprises devraient non seulement être en mesure d’entraîner leurs propres modèles LLM, mais surtout d’en assurer le cycle de vie à l’aide des mêmes outils qu’ils utilisent pour leurs données et leurs algorithmes », poursuit-il. La plateforme de MosaicML est d’ores et déjà intégrée avec MLflow, l’outil MLOps imaginé par Databricks.
Plus qu’une simple technologie, selon Databricks
Outre l’acquisition de la plateforme MosaicML, Databricks héritera de l’équipe dirigeante de MosaicML, dont le cofondateur et PDG Naveen Rao.
Joel Minnick, vice-président du marketing chez Databricks, assure que l’approche open source de MosaicML est alignée sur celle portée par Databricks.
En outre, il note que les deux sociétés partagent la même conviction : bien que l’entraînement des LLM sur des données publiques puisse être bénéfique, les entreprises ont davantage intérêt à utiliser leurs données pour informer ou entraîner leurs modèles.
« Les clients n’ont pas besoin de tout le contenu présent sur Internet s’ils essaient de construire un grand modèle de langage pour répondre à des questions sur les polices d’assurance maladie de leurs clients, par exemple », justifie Joel Minnick.
Pour le reste, le vice-président du marketing de Databricks reprend à son compte les arguments mis en avant par les analystes interrogés par Techtarget [propriétaire du MagIT] : il s’agit bien de favoriser l’entraînement de modèles LLM privés sur des données propriétaires à un coût raisonnable. « Les synergies technologiques, stratégiques et humaines entre Databricks et MosaicML sont nombreuses », juge Joel Minnick.
De fait, Databricks s’est rapidement investi dans le domaine de l’IA générative. Avec Dolly, il a tenté de prouver qu’il était possible de créer des petits modèles de langage (et économiquement frugaux), en s’appuyant sur des modèles open source et des données générées via GPT-3.5 issus du projet Alpaca de l’université de Stanford. Avec Dolly 2.0, Databricks a réitéré l’expérience en créant son propre jeu de données de questions-réponses open source, afin de rendre « commercialement viable » le modèle qui l’exploite.
Pour l’anecdote, l’éditeur a également produit des tutoriels diffusés sur sa page YouTube, et publié une sorte de guide Michelin des modèles LLM open source en fonction de leurs avantages et de leurs coûts. En interne, la société a déployé son propre assistant intégré à Slack.
Reste à voir comment vont réagir Google, OpenAI et Microsoft à cette alternative, portée par LightOn en France. Les géants du cloud ont déjà convaincu le marché qu’il était possible d’affiner les réponses en provenance de GPT-4 et Bard en y couplant une base de données renfermant des embeddings, un moyen de représenter une base de connaissances sous forme de vecteurs exploitables par l’IA. Si cette technique permet de diminuer les hallucinations, cela ne règle pas totalement les questions de sécurité et de confidentialité des données.
Pour l’heure, Databricks attend l’aval des autorités qui doivent valider ce rachat.