DSS 12 : automatisation et contrôle, les deux priorités de Dataiku
Le 31 mai, Dataiku a annoncé la disponibilité de Dataiku 12 (DSS pour les intimes), la dernière version en date de sa plateforme de data science. S’il explore les capacités des LLM, l’éditeur poursuit surtout ses efforts pour rendre les projets de data science opérationnels et auditables.
La communication de l’éditeur d’origine française surfe d’abord sur son intégration avec les API d’OpenAI, dont celle qui permet d’interroger directement le modèle sous-jacent de ChatGPT, GPT-4.
Ici, Dataiku entend proposer une interface visuelle à partir de laquelle les métiers peuvent interroger les modèles GPT d’OpenAI en langage naturel pour effectuer des tâches comme de la génération de textes, produire des résumés, classifier des informations textuelles ou répondre à plusieurs questions. Les données en sortie peuvent être incorporées « en toute transparence et en toute confiance » dans des « recettes », les transformations dans le jargon de Dataiku.
Automatiser la création de features
Toutefois, ce n’est pas la fonctionnalité clé de cette version majeure. De fait, elle n’est même pas évoquée dans la feuille de note qui accompagne la sortie.
DSS 12 met plutôt en valeur une autre fonction générative : il s’agit là d’automatiser la création de features (caractéristiques ou paramètres dans la langue de Molière). Dans le détail, cette recette permet d’enrichir un jeu de données SQL avec de nouvelles colonnes en regroupant plusieurs étapes de préparation (jointures, agrégations, transformations, pivots) dans un seul flux de travail guidé.
Dans un premier temps, l’outil automatise les conditions de jointure selon le nom des colonnes dans les tables de données sources. Ensuite, il s’agit de sélectionner le type de relation entre les tables sources en déterminant si les paramètres (les nouvelles colonnes) sont créés à partir d’une ou de plusieurs lignes, pour enfin effectuer des transformations à des fins de normalisation, si nécessaire.
Dataiku entend améliorer également l’orchestration des flux contenant plusieurs recettes. Il est désormais possible d’exécuter une recette (et non plus le flux en entier), mais aussi de lancer une suite de transformations à partir d’une recette donnée. L’option applique à la volée toutes les modifications de schéma aux jeux de données en sortie.
Dataiku renforce la prise en charge de l’inférence causale
Dans cette même idée de rendre la data science opérationnelle, l’éditeur introduit des algorithmes de « prédictions causales ». Inspirée de l’inférence causale (et des modèles Uplift utilisés en marketing), l’idée n’est plus seulement de prédire un résultat, mais d’analyser les relations de cause à effet d’une action sur un groupe.
« Si je fais X, quel est l’impact quantifiable sur le résultat Y qui m’intéresse ? », illustre Christina Hsiao, directrice marketing produit chez Dataiku, dans une vidéo d’introduction de DSS 12. « Par exemple, une entreprise proposant un service disponible à l’abonnement peut vouloir réduire l’attrition en proposant un rabais à ses clients, mais a un budget limité ».
Selon la documentation de l’éditeur, le Lab permet à un data scientist d’entraîner un modèle de meta-learning ou un algorithme causal forest (proche d’un random forest) en sélectionnant une « variable de traitement », une promotion par exemple, et une valeur de contrôle pour libeller un échantillon de données où cette variable de traitement n’a pas d’effet. Dans une étude clinique, cet échantillon correspond typiquement aux patients ayant avalé un placebo.
Dans l’exemple pris par l’éditeur, il s’agira alors d’estimer auprès de quelle population la promotion aura un effet positif.
L’éditeur fournit un ensemble de modèles et d’outils pour s’assurer que l’hypothèse peut être testée auprès d’un public cible.
En l’occurrence, cette technique nécessite de bien comprendre les nombreux biais qui peuvent affecter cette méthode et les modèles d’inférence causale sont réputés difficiles à interpréter.
« Une organisation peut in fine envoyer une promotion à 20 % de ses clients qui seront le plus tentés de renouveler leur abonnement dans ces conditions », avance Christina Hsiao.
Plus de moyens pour contrôler les risques et auditer les modèles
Mais c’est bien sûr les sujets de la transparence et de confiance – ou plus prosaïquement de la gouvernance – que Dataiku concentre ses efforts.
Une des fonctionnalités clés de Dataiku 12 se nomme « Machine Learning Overrrides ». L’idée est d’appliquer des garde-fous, une « couche supplémentaire de contrôle humain », applicable aux prédictions d’un modèle. Selon Dataiku, il s’agit d’éviter la prédiction de valeurs aberrantes, de se conformer aux réglementations et de « faire respecter les limites éthiques ».
Pour cela, Dataiku s’appuie sur un moteur de règles de type IFTTT (« if then, then that »). Ces règles peuvent être définies via un système de filtres ou à l’aide de formules. Une formule se décompose en deux parties : la première spécifie les conditions de déclenchement (if then) et l’autre le résultat attendu dans une ligne d’une table (then that). Un modèle peut être soumis au contrôle de plusieurs règles, mais une seule d’entre elles peut s’appliquer à la fois.
Dans sa vidéo d’introduction, Dataiku donne l’exemple d’un vendeur automobile qui souhaite limiter la valeur de revente minimale et maximale estimée d’un véhicule endommagé. L’interface permet d’identifier simplement quand ces règles ont été appliquées et de retrouver la valeur prédite par un modèle en première instance.
De manière générale, cela permettrait d’éviter de subir le suréchantillonnage, de pallier le faible volume de données, ou encore les différences – même infimes – entre les données de tests et de production.
Outre un renforcement du contrôle des résultats, Dataiku veut faciliter l’explicabilité des modèles. La fonctionnalité « Universal Feature Importance » doit permettre rendre compréhensible le fonctionnement d’un plus grand nombre de modèles qu’auparavant, et ce, de manière agnostique. Pour ce faire, Dataiku s’appuie sur la valeur de Shapley (et non plus uniquement sur l’indice de Gini), mais a amélioré aussi son interface de visualisation et a rendu compatible son système d’explicabilité avec les modèles MLFlow importés dans sa plateforme.
À l’aide d’un diagramme, les décideurs et les data scientists peuvent visualiser rapidement les variables importantes qui déterminent les prédictions d’un modèle. Mais il est également possible de visualiser de manière plus détaillée les effets des paramètres sur la prédiction et leurs interdépendances à l’aide de nuages de points.
« [Dataiku] s’attache à aider ses clients à avancer en toute confiance dans leurs initiatives en matière d’IA, tout en garantissant la confiance et en réduisant les risques », juge pour sa part Mike Leone, analyste chez Enterprise Strategy Group, une filiale de Techtarget aussi propriétaire du MagIT.
Un centre d’aide infusé
Par ailleurs, l’éditeur renforce les capacités introduites à partir de DSS 11. La précédente mise à jour apportait des fonctionnalités réclamées par la « communauté technique ». En l’occurrence, Dataiku avait ajouté des Code Studio, c’est-à-dire des espaces pour exécuter des IDE et des applications Web. L’objectif : pouvoir réaliser des transformations (des recettes dans le jargon Dataiku) en Python, SQL, R depuis Visual Studio Code, JupyterLab et RStudio Server. Depuis, l’éditeur a ajouté la prise en charge de Streamlit, la technologie acquise par Snowflake.
Si Dataiku entend faciliter le travail des data scientists, des statisticiens et des data analysts les plus avancés, il n’oublie les utilisateurs métier. En ce sens, il a revu son système en proposant un data catalog dédié permettant de retrouver et partager les collections de jeux de données, les sources et les connecteurs par équipe ou par cas d’usage.
Enfin, il intègre un centre d’aide à même l’interface d’un projet pour accéder à la documentation, trouver des tutoriels, recommander de la lecture et d’autres éléments pouvant servir à la formation d’un débutant.