DSS 11 : Dataiku renforce son soutien aux « experts techniques »
Présentée à la fin du mois de juin 2022 et disponible depuis le 12 juillet, la version 11 de la plateforme de Dataiku doit améliorer l’expérience des équipes de data science tout en optimisant le partage d’informations entre tous les utilisateurs.
Même s’il a la volonté de démocratiser l’analytique, l’IA et le machine learning depuis ses débuts, Dataiku met les data scientists, les data engineers et les développeurs au centre de sa plateforme DSS.
Auparavant, ces « experts » étaient invités à migrer leurs notebooks vers la plateforme ou à employer l’IDE et la version de Jupyter embarqués dans DSS. Ensuite, l’éditeur a proposé des extensions afin de connecter son logiciel à des IDE externes, dont Visual Studio Code et PyCharm.
Or ces outils sont installés par poste, et les administrateurs peuvent manquer de contrôle sur leur déploiement ou leur usage. Les soucis de configuration peuvent aussi ralentir la mise en route des projets, selon l’éditeur.
Code Studios : le Codespaces de Dataiku
Pour « renforcer l’engagement » des équipes techniques, DSS 11 intègre « Code Studios », un espace personnel pour exécuter des IDE et des applications Web dans le cloud. Code Studios se lance sur un pod Kubernetes hébergé sur une instance Elastic AI tirant parti d’AKS, de GKE ou d’EKS. « Chaque Code Studio est un conteneur séparé, et possède son propre système de fichiers. Il ne peut pas accéder au système de fichiers de l’hôte DSS », précise la documentation de l’éditeur.
Un Code Studio permet d’éditer des « recettes » – des transformations – écrites en Python et en SQL dans Visual Studio Code, en R dans RStudio Server, et de débugger du code Python dans JupyterLab. Avec Code Studios, Dataiku intègre aussi Streamlit, le framework Python de développement d’applications Web, racheté par Snowflake. L’outil similaire à GitHub Codespaces est suffisamment ouvert pour accueillir les paquets nécessaires aux projets des équipes techniques. Et à l’instar de Codespaces, Code Studios réclame une attention particulière au démarrage et à l’arrêt des instances cloud.
Code Studios fait directement écho à la stratégie de Dataiku : l’entreprise souhaite attirer les clients vers ses offres cloud. En ce sens, pour faciliter le déploiement des Code Studios, l’éditeur recommande l’usage des templates associés aux licences Cloud Stacks. À noter qu’après AWS, la nouvelle mouture de DSS introduit une configuration Cloud Stacks pour Google Cloud.
Simplifier le partage de données et la collaboration
Les experts du code ne sont pas les seuls à bénéficier de nouveaux environnements de développement.
Pour les « professionnels de la donnée », un outil nommé Visual Time Series Forecasting doit faciliter la conception, l’entraînement, l’évaluation et le déploiement de modèles de prévision sur des séries chronologiques « sans écrire de code ». Les équipes y croisent plusieurs séries temporelles et accèdent à plusieurs algorithmes de machine learning et de deep learning.
Quant aux équipes qui éditent des modèles de vision par ordinateur, elles ont le droit à un nouvel espace de labélisation des images. Cette interface permet d’inviter les annotateurs et prend en charge des raccourcis pour accélérer l’étiquetage des images. Un responsable peut analyser le processus d’annotation et résoudre les conflits éventuels. L’outil est avant tout pensé pour préparer des données soumises à des algorithmes de classification et de détection d’objets.
Et pour faire le lien entre les équipes de data science et les autres utilisateurs de la plateforme, Dataiku a amélioré les fonctions de partage infusées dans DSS. Ainsi, les administrateurs peuvent rendre leurs projets « découvrables ». En principe, tous les usagers peuvent alors obtenir des informations sur la nature d’un projet, et, au besoin, réclamer un accès à son propriétaire. Les gestionnaires reçoivent des notifications et acceptent ou non la sollicitation. Les participants à un projet peuvent demander à distribuer des jeux de données avec d’autres programmes. Ces requêtes sont, elles aussi, soumises aux admin. En outre, une fonctionnalité de partage rapide peut être activée afin de laisser les utilisateurs s’échanger des data sets sans intervention d’un responsable.
Il y a également un défi d’intelligibilité des données. Pour cela, Dataiku optimise ses capacités de visualisation de données et ajoute un tableau croisé dynamique (réclamés par les habitués d’Excel).
MLOps : Dataiku met sur pied un feature store maison
Surtout, Dataiku poursuit les efforts engagés dans le cadre de sa V10 pour supporter les principes MLOps.
Ainsi, l’éditeur introduit un Feature Store. Plus précisément, il s’agit d’un espace dédié aux partages de jeux de données et de paramètres nécessaires à la conception de modèles de machine learning. Les utilisateurs peuvent marquer les data sets contenant des features dignes d’intérêt avec le sceau « Feature Group ». Ils rejoignent alors le feature store.
À l’instar de Vertex AI de GCP et d’AWS SageMaker, cette fonctionnalité repose sur l’implémentation de capacités existantes de la plateforme. Les paramètres sont stockés dans les différentes instances de stockage objet et de bases de données supportées par DSS. Les données sont ingérées à l’aide de recettes de flux. Les paramètres liés aux traitements batch (offline) sont servis via des recettes de jointure déployées sur des nœuds d’automatisation. Les paramètres associés aux traitements temps réel (online) passent par l’API permettant d’effectuer des lookups dans des jeux de données. Puis, le monitoring et la maintenance sont définis via des déclencheurs.
Dans la même veine, la plateforme supporte l’API Tracking de MLflow, en vue de suivre les métriques des paramètres, des performances, et différentes métadonnées nécessaires à l’évaluation de modèles expérimentaux.
Enfin, Dataiku a optimisé son Model Document Generator. Introduite à partir de DSS 8, cette fonctionnalité générait automatiquement de la documentation pour les modèles entraînés. L’éditeur a étendu cette capacité au flux, c’est-à-dire la représentation visuelle des étapes (les fameuses recettes) constituant un pipeline de transformation de données. Le document sous format DOCX doit détailler les jeux de données et les opérations effectuées au cours du développement d’un modèle statistique ou d’intelligence artificielle. Pour ce qui est de la gouvernance, Dataiku fournit un nouvel éditeur de gestion des permissions et des signatures, ainsi qu’une traçabilité temporelle des objets gouvernés.
Au total, DSS 11 corrige une cinquantaine de bugs, et déprécie le support de MapR ainsi que des versions 1.x et 2.x d’Elasticsearch.