Fotolia

DSS de Dataiku : une V10 sous le signe du MLOps et de la gouvernance

Là où les précédentes moutures se concentrent sur la réunion des métiers et des experts de la donnée, DSS 10.0 vise à mieux contrôler les modèles de machine learning et les données nécessaires à leur fonctionnement.

Le 15 novembre dernier, Dataiku déployait en catimini la dixième version de sa plateforme de data science, pour finalement la mettre en lumière entre le 9 et le 16 décembre, lors d’un événement en ligne.

V10. Pour les fous de la route, ce sigle est synonyme de puissance, pas de contrôle. Exemple, une BMW E60 M5 ou une Porsche Carrera GT, toutes deux équipées d’un moteur V10, « driftent » : elles dévient de leur trajectoire au moindre coup de volant un peu brusque. Clairement, Dataiku ne veut pas que ses clients « plantent » leurs projets dans les platanes longeant la route sinueuse de l’IA. Ainsi, la V10 de Data Science Studio (DSS) s’enrichit de fonctionnalités de contrôle et de gouvernance des modèles de machine learning.

Vers un ESP pour l’IA

L’analogie automobile n’est pas si idiote que cela. La première fonctionnalité dans la note de mise à jour de DSS 10.0 concerne la comparaison de modèles et l’analyse des déviances (Drift Analysis en VO). Oui, un modèle de machine learning en production peut connaître des évolutions liées aux données, « une dérive de la distribution statistique des caractéristiques (“features”), ou une déviance de concepts », causées par « une modification de la relation entre les caractéristiques et la cible », selon la documentation de l’éditeur.

Pour les prévenir, l’analyse commence par la collecte de données dans les environnements de production et par l’obtention – dans certains cas – d’une vérité de base (ground truth). Ensuite, l’on compare le comportement du modèle ML en production par rapport à une référence, soit un autre modèle, soit à l’aide d’une évaluation réalisée automatiquement à l’entraînement du modèle dans DSS. L’outil sert à effectuer trois types d’analyses : la distribution statistique des features (Input Data Drift), la distribution des prédictions (Predictions Drift) et les performances des modèles. Un outil permet également de confronter visuellement, à travers un tableau de bord, les prouesses des modèles. Si ce n’est pas encore un correcteur de trajectoire, l’outil promet tout de même de mieux appréhender les évolutions des algorithmes en production.

Il s’agit là d’un des mantras du MLOps, une tendance forte chez les éditeurs, observant à la fois la généralisation des déploiements de modèles en production et constatant la difficulté de les maintenir dans cet état. Ainsi, Dataiku propose une intégration expérimentale avec MLflow, l’outil open source de mise en ligne et de suivi des modèles IA, concoctée à l’origine par Databricks. Il est possible d’importer les modèles au format MLFlow dans DSS, de les entraîner, de les déployer et de les gouverner.

En première lecture, cela paraît étrange, car justement MLFlow a été pensé pour administrer le cycle de vie des algorithmes. Sauf que l’éditeur entend entremêler MLOps et gouvernance.

Une gouvernance unifiée

Dataiku reprend donc des concepts du projet open source de Databricks à sa sauce pour les embarquer dans sa plateforme. Pour cela, Dataiku introduit le « Govern Node », un espace central pour gouverner les données, les projets analytiques et de machine learning. Cette « couche supplémentaire de gouvernance » peut être ajoutée optionnellement dans tous les projets, après création d’une instance Dataiku Govern.

À l’instar de certains Data Catalogs, ce hub cartographie automatiquement les projets, modèles et les versions de modèles associés à une instance. Il convient ensuite de sélectionner les projets et modèles à superviser, à condition de respecter l’arborescence des dossiers. Cette fonctionnalité additionnelle ne sert pas uniquement de tour de contrôle pour la conformité. Elle permet de visualiser l’avancement des projets et de les prioriser selon leur importance pour l’entreprise.

Ainsi, l’environnement intègre une structure de flux de travail par défaut, mais il est possible de la configurer en ajoutant des étapes, moyennant une prise de contact avec Dataiku. Mais l’une des capacités phares du Govern Node consiste à faire signer les versions d’un modèle par les différentes parties prenantes avant leur déploiement en production. Ce mécanisme reprend dans les grandes lignes le système de signature des commits Git embarqué dans les outils de gestion de version centralisée du marché.

La démarche de l’éditeur visant à rassembler les experts des données, les responsables IT et les directions métiers est validée par le cabinet IDC, dont Dataiku partage le retour dans un communiqué de presse. La gouvernance des données et des modèles serait d’ailleurs en passe de devenir une condition sine qua non à tout projet d’IA en entreprise, selon un analyste.

« Dans la mesure où toutes les industries en sont venues à faire un usage intensif de l’IA et du machine learning, ce n’est plus uniquement le pré carré des data scientists et des responsables IT. »
Ritu JyotiVP Groupe, AI and Automation Research, IDC

« Dans la mesure où toutes les industries en sont venues à faire un usage intensif de l’IA et du machine learning, ce n’est plus uniquement le pré carré des data scientists et des responsables IT ; et nous assistons à des exigences nouvelles de la part des managers et des cadres dirigeants qui veulent pouvoir y accéder et en comprendre les tenants et aboutissants », écrit Ritu Jyoti, vice-président Groupe, AI and Automation Research chez IDC.

« La seule façon d’y parvenir est d’avoir un langage simple pour expliquer comment les départements gèrent les MLOps, créant ainsi un cadre et une approche homogènes pour chaque projet. », ajoute-t-il.

Cette centralisation ne concerne pas exclusivement l’administration des modèles. Les Workspaces de DSS 10 permettent de rassembler les jeux de données, les tableaux de bord, la documentation, les web apps, les applications et les liens URL. Ces workspaces représentent des collections d’objets Dataiku partagés entre les membres autorisés d’une équipe.

Enfin, Dataiku a amélioré les fonctions d’analyses des données géospatiales, intégré le framework de gradient boosting LightBGM dans son composant d’AutoML, ajouté la détection d’objets à ses capacités de deep learning et a aussi optimisé et corrigé ses outils de conception de diagrammes et de tableaux de bord.

DSS 10 est disponible gratuitement en version d’essai. En sus de son offre sur la place de marché sur AWS, Dataiku a également lancé sa solution sur Google Cloud Marketplace. De fait, l’éditeur poursuit sa stratégie d’accélération de la contractualisation dans le cloud.

Pour approfondir sur Intelligence Artificielle et Data Science