MLOps : Knime infuse des fonctions CI/CD dans Business Hub
Knime ajoute des fonctions CI/CD au remplaçant de Knime Server, Business Hub. L’objectif ? Rendre opérationnel le déploiement de modèles de machine learning à large échelle.
Knime a lancé une extension de son Business Hub dans le but de faciliter et sécuriser le déploiement et la mise à jour des produits de data science par les entreprises.
Cette extension, baptisée Continuous Deployment for Data Science (CDDS), a été dévoilée le 18 avril lors d’une conférence menée par l’éditeur à Berlin.
Désormais disponible sous la forme d’un ensemble de workflows et d’applications, Knime CDDS doit permettre aux entreprises d’automatiser l’intégration et le déploiement continus (CI/CD) de modèles de machine learning et d’autres processus liés à la pratique de la data science.
Knime, qui a initialement présenté son Business Hub en novembre 2022, est un éditeur de solutions analytiques open source basé à Zurich, en Suisse.
Le Business Hub est un environnement cloud où les organisations peuvent mettre en place des mesures de sécurité et de gouvernance des données, partager et collaborer sur des projets de data science et d’analytique, et mettre en production les projets terminés.
La plateforme a essentiellement remplacé Knime Server, qui arborait peu ou prou les mêmes fonctionnalités. Seulement, Knime Server n’était pas cloud native et ses fonctions de partage étaient limitées. De son côté, Business Hub doit permettre un partage des projets et une collaboration à l’échelle de l’organisation.
Cette notion de collaboration généralisée est importante. De nombreux projets ont pris fin prématurément à cause d’un manque de dialogue entre des équipes data science et métiers, dont les efforts étaient peu synchronisés.
Du déploiement continu pour les projets de data science
Lors du lancement de Business Hub, Knime avait inscrit dans sa feuille de route l’apport de fonctions CI/CD pour déployer des cas d’usage liés au machine learning et à l’intelligence augmentée.
Avec la disponibilité de CDDS, l’éditeur tient sa promesse. Outre le déploiement des modèles et des flux ML, ce module permet d’automatiser la surveillance et le recyclage des projets en fonction des besoins, une fois qu’ils sont en production. Qui plus est, les administrateurs peuvent superviser l’ensemble des flux de déploiement afin de s’assurer que seuls les projets dûment validés peuvent être exécutés.
Donald Farmer, fondateur et analyste chez TreeHive Strategy, fait remarquer que les organisations ont souvent du mal à maintenir les algorithmes statistiques et de machine learning à jour avec des données actualisées. CDDS est donc un ajout bienvenu à Business Hub en raison de ses capacités d’automatisation.
« La nécessité d’entraîner et de mettre à jour continuellement les modèles est bien comprise en théorie – les données changent constamment, après tout », note l’analyste. « Mais savoir quand et comment mettre à jour un modèle de manière efficace peut s’avérer délicat. C’est comme essayer de régler un moteur pendant que l’avion vole. Un processus automatisé et continu est vecteur d’efficacité ».
L’outil pourrait s’avérer particulièrement utile pour les data analysts et les métiers sensibles au sujet du traitement des données qui souhaiteraient s’investir davantage dans la data science.
« Cela permet de s’assurer que les modèles sont mis à jour en temps voulu, lorsque des changements sont nécessaires », avance Donald Farmer. « De cette manière, il s’agit d’anticiper la dégradation de la performance et de la précision des algorithmes. Ceci est particulièrement important pour Knime. D’où le renommage de la solution en… Business Hub. Si vous ciblez des cas d’usage métiers plutôt que la recherche pure, il est nécessaire de fiabiliser et de maintenir les projets ».
Opérationnaliser le MLOps
De même, Mike Leone, analyste chez Enterprise Strategy Group, une filiale de Techtarget [également propriétaire du MagIT], considère que CDDS devrait permettre d’opérationnaliser le MLOps.
Mike LeoneAnalyste, Enterprise Strategy Group
« Cela ajoute des capacités robustes pour combler les lacunes auxquelles les organisations sont régulièrement confrontées lorsqu’elles commencent à opérationnaliser le machine learning », assure-t-il. « Beaucoup d’entreprises se heurtent à un obstacle majeur, à savoir le passage d’un modèle en production. Mais ce n’est pas la fin du voyage. CDDS contribue au processus cyclique de déploiement et d’amélioration continus des modèles ».
Il s’agit notamment de s’assurer que la gouvernance continue est appliquée, que les modèles peuvent rapidement réagir aux effets de dérive et qu’ils peuvent être réentraînés sur la base de nouvelles données, complète-t-il.
Bien que le Business Hub de Knime ait été lancé à la fin de l’année dernière et que l’éditeur l’a enrichi ce mois-ci, ce concept n’est pas propre à Knime.
Par exemple, Google a lancé Analytics Hub en septembre 2022. ThoughtSpot, Tableau, Qlik et Microsoft Power BI font partie des autres plateformes dotées de capacités de collaboration. Dataiku, plus proche dans l’esprit de Knime que de Tableau, dispose, lui aussi, de fonctionnalités similaires.
Cependant, étant donné l’accent mis par Knime sur la data science, qu’il soit le premier à intégrer des fonctionnalités de collaboration à sa plateforme ou non, ces fonctionnalités sont essentielles pour les utilisateurs de l’éditeur, selon Mike Leone.
« [CDDS] correspond à une suite de fonctionnalités de plus en plus réclamées par les entreprises », signale-t-il. « Elles déploient des centaines de modèles et ont besoin de processus définis en place pour itérer plus rapidement et avec plus de confiance une fois les modèles déployés ».
Knime améliore les performances de sa plateforme open source
Outre le lancement du CDDS, Knime a également dévoilé de nouvelles fonctionnalités pour la Knime Analytics Platform, la suite gratuite d’outils de business intelligence de l’éditeur.
La version 5.0 de la plateforme comprend une série de fonctionnalités conçues pour permettre aux nouveaux usagers d’élaborer plus facilement des flux de travail analytiques.
Par exemple, un outil appelé Starter Perspective vise à simplifier la transition entre les feuilles de calcul et l’analyse visuelle grâce à un ensemble de nœuds couramment utilisés pour les tâches de manipulation de données telles que le nettoyage, la fusion et le filtrage des données. Une autre fonctionnalité permet aux nouveaux utilisateurs d’explorer 12 exemples de manipulation de données sur le Hub communautaire de Knime.
Bien que la mise à jour s’adresse aux néophytes de Knime Analytics Platform, Donald Farmer fait remarquer que les performances des outils open source de Knime pourraient être améliorées.
« L’amélioration des performances est sans doute la seule réclamation que j’entends de la part des utilisateurs [de la plateforme] », souligne-t-il. « Je pense que les extensions open source sont particulièrement lentes ».