IA générative : Databricks étend sa couverture fonctionnelle
Lors du Data+AI Summit 2024, Databricks a annoncé une suite de fonctionnalités pour entraîner et exécuter des modèles d’IA générative sur les fondations de sa plateforme et de celle de Mosaic AI. L’objectif, simplifier la mise en place des processus et des applications.
En juin 2023, le spécialiste de la gestion de données a acquis MosaicML, devenu Mosaic AI sous son giron.
Mosaic AI a mis au point un système de gestion des charges de travail IA parallélisé, permettant de distribuer les flux de travail sur des centaines, voire des milliers de GPU, ainsi que les boîtes à outils pour les entraîner et les inférer.
C’est sur cette fondation que Databricks s’appuie pour tenter de simplifier l’entraînement, le fine-tuning de modèles, mais aussi le déploiement de systèmes « composites », c’est-à-dire des applications qui intègrent plusieurs modèles et outils logiciels.
La veille du keynote principal du Data+AI Summit, un porte-parole d’Atlassian évoquait la difficulté à maîtriser l’entraînement et le fine tuning de LLM. À très gros trait, il faut retenir que plus le modèle est grand, plus la gestion du fine-tuning est périlleuse.
L’entraînement, en dernier recours
En ce sens, Databricks a présenté Mosaic Mosaic AI Model Training. Deux modules seront prochainement disponibles : Pretaining et Fine Tuning.
Le module Pretraining sert à modifier une grande partie des poids d’un LLM préentraîné, plus communément nommé modèle de fondation. Databricks prend en charge trois méthodes de préentrainement : le fine-tuning supervisé, l’entraînement continu et la complétion de conversation. La première technique vise à « apprendre » de nouvelles tâches au modèle, modifier son ton de réponse ou renforcer ses capacités à suivre des tâches. La deuxième vise à renforcer les connaissances du LLM dans un domaine spécifique à partir de 1,5 million de documents ou échantillons minimum. La troisième consiste à améliorer ses capacités à répondre à des questions dans un format attendu.
Il s’agit de réduire les coûts de préentraînement par dix par rapport à une infrastructure mise sur pied par un client. Databricks prévient qu’il ne peut pas prendre en charge des jeux de données dépassant 10 000 milliards de tokens, en raison de la disponibilité des instances de calcul. « Les GPU coûtent cher, mon directeur financier me le rappelle toutes les semaines », plaisante Ali Ghodsi, cofondateur et CEO de Databricks. L’éditeur affirme que plus de 200 000 modèles d’IA ont été entraînés à l’aide de sa plateforme l’année dernière.
Ali GhodsiCEO, Databricks
Le module de fine tuning, lui, promet une interface no-code permettant de simplifier la mise en œuvre de la technique LoRA (Low Rank Adaptation of Large Language Models). Celle-ci consiste à modifier une petite partie des poids d’un LLM, dans le but de le spécialiser dans un domaine. Ici, Databricks entend proposer de modifier des LLM « open weight », dont DBRX, plusieurs modèles Mistral, Llama 2 et LLama 3.
Si la technique n’est pas sans faille, elle permet aux entreprises d’adapter à moindre coût des modèles à leurs usages.
Les porte-parole de Databricks soulignent toutefois que le recours à Mosaic AI Model Training n’est nécessaire qui si l’entreprise a déjà essayé un ensemble de techniques de prompt engineering, si elle a mis en place une architecture RAG (Retrieval Augmented Generation), si elle n’est pas satisfaite par la vitesse ou le coût d’inférence des LLM ou si elle souhaite obtenir la propriété d’un modèle « custom ».
RAG et contrôle des résultats
Si l’éditeur sait bien que certains de ses clients veulent cette maîtrise, il sait qu’ils souhaiteront également des moyens de contrôler les résultats des LLM à moindres frais. En ce sens, il a présenté Mosaic AI Agent Framework. Il rassemble plusieurs outils pour « concevoir, déployer et évaluer » des applications RAG.
Dans sa documentation, Databricks détaille l’ensemble des étapes nécessaires à la mise en place de ce type d’applications ainsi que le fonctionnement d’une architecture RAG. Ainsi, il est possible d’ingérer des données structurées et non structurées dans des tables Delta ou des volumes. Ensuite, il faut extraire les données depuis des fichiers PDF ou des images, des métadonnées. L’éditeur recommande de « découper » les documents en « morceaux choisis » qui permettront d’affiner la réponse d’un LLM à une question. Puis, il convient de vectoriser ces « chunks » à l’aide d’un modèle d’embedding, avant de les stocker dans une table Delta synchronisée avec le module Databricks Vector Search. Lui-même indexe et stocke les données dans une base de données vectorielle accessible par l’application RAG. Cette synchronisation doit permettre de mettre à jour automatiquement l’index au fur et à mesure qu’un embedding est ajouté dans la table Delta.
Ali GhodsiCEO, Databricks
« Je suis extrêmement optimiste quant à l’intérêt du RAG et je continue à l’être. Je pense que cette technique est là pour rester, et ce, pour trois raisons », lance Ali Ghodsi lors d’un point presse. « Premièrement, les entreprises veulent maîtriser la sécurité de leurs données, les accès et la gestion des rôles. Deuxièmement, vous pouvez mettre à jour régulièrement vos données dans votre base de données, ce qui n’est pas possible si vous utilisez le modèle de base. Troisièmement, vous pouvez éviter les hallucinations », argumente-t-il.
Par ailleurs, Databricks entend proposer ce qu’il appelle Unity GenAI AI Tools, c’est-à-dire un moyen d’enregistrer des fonctions distantes, SQL, Python, des appels à d’autres LLM, et de permettre à un agent « doué de raison » – en clair un LLM entraîné avec la technique « chain of thought » – d’utiliser ces outils. Ils seront enregistrés comme des actifs contrôlables depuis le catalogue Unity, la couche de gouvernance de la « Data Intelligence Platform ».
Une fois une application déployée, la fonction Mosaic AI Agent Evaluation permet d’évaluer « la qualité, la latence et le coût d’une application d’IA ». Ici, Databricks s’appuie sur MLFlow et plus particulièrement sur l’API « Evaluate » qui permet d’exécuter ces évaluations.
Les développeurs doivent d’abord constituer un jeu de données « vérité terrain » avant de s’appuyer sur des métriques de qualité, de performance et de coût.
En ce qui concerne la qualité des réponses, Databricks propose deux modes d’évaluation : l’une à partir des retours des utilisateurs et l’autre à l’aide d’un « LLM as a Judge ».
Dans le premier cas, il s’agit de collecter dans une table Delta les questions, les réponses du modèle et l’avis des utilisateurs afin d’établir des statistiques. Le second cas permet d’automatiser ce processus en s’appuyant sur un LLM chargé de classifier la qualité des réponses ou des résultats.
Pour garder le contrôle sur ces résultats, Databricks a présenté Mosaic AI Gateway, une API basée sur MLFLow attenant au service de déploiement Model Serving. Ce point de terminaison doit servir à fixer des limites d’appels vers les modèles, de gérer les permissions et les accès, de tracer les usages, et de mettre en place des garde-fous (des filtres).
Il est « trop tôt » pour déclarer un vainqueur de l’IA générative
S’il explique un peu plus clairement l’articulation entre les différentes briques de sa plateforme, Databricks en est au même stade que ses concurrents, selon les analystes.
Comme AWS, Google, Microsoft, Oracle, Snowflake et d’autres, la majorité des annonces sont en préversion publique ou privée.
« C’est une bonne chose de voir ces annonces », déclare Dave Menninger, analyste chez Ventana Research [propriété d’ISG], auprès de Searchdatamanagement, une publication sœur du MagIT. « Ce sont certainement des pas dans la bonne direction, mais les entreprises ont besoin de fonctions en disponibilité générale, fiables et disposant d’un support garanti ».
« Comme Snowflake [lors de sa conférence annuelle], Databricks annonce des préversions », renchérit Kevin Petrie, analyste chez BARC US. « Le véritable test consistera à passer la disponibilité générale le plus rapidement possible ».
Il serait donc « trop tôt » pour déclarer un vainqueur à la course à l’armement GenAI, selon Kevin Petrie.
Kevin PetrieAnalyste, BARC US
« Comme la GenAI sera en fin de compte plus une fonction qu’une initiative autonome, les gagnants seront ceux qui pourront aider les entreprises à l’intégrer dans leurs systèmes et applications existantes », suggère-t-il. Un souhait partagé par les clients de Snowflake et de Databricks, d’après les propos recueillis ces deux dernières semaines par LeMagIT.
Dave Menninger ne perçoit pas de son côté d’offres permettant de combiner machine learning et IA générative. Si cela n’est pas aussi clair que cela pourrait l’être, c’est bien l’un des objectifs de fonctionnalités comme Unity GenAI Tools et la suite AI/BI.
Ali Ghodsi, pour sa part, laisse entendre que Databricks et ses concurrents ont le temps. « Je suis très enthousiaste à ce sujet. L’intelligence artificielle générative est bien sûr l’avenir, mais nous n’en sommes qu’au premier jour sur un million. Il est donc très tôt, je pense ».
La priorité des entreprises réside, selon lui, dans la sécurité, la gouvernance et l’ingénierie de données.