Getty Images/iStockphoto
Comment Dataiku veut attirer ses clients vers le cloud
La licorne d’origine française se développe désormais depuis les places de marché des géants du cloud et propose une version managée de sa plateforme réservée aux petites équipes. Un moyen pour elle d’accélérer les contractualisations.
Coup sur coup, Dataiku a annoncé la disponibilité de sa plateforme de data science sur les marketplaces de Microsoft Azure et AWS. L’éditeur né en France, et dont le siège social est installé à New York, entend poursuivre son développement auprès des entreprises sensibles à l’argument cloud.
« Ces trois dernières années, nous avons observé un changement radical, notamment dans les grands groupes », déclare Romain Fouache, Chief Revenue Officer chez Dataiku. « Jusqu’à il y a trois/quatre ans, nous avions environ 30 % de nos clients sur le cloud, principalement des TPE/PME. Aujourd’hui, entre 70 % et 80 % d’entre eux migrent sur le cloud, suivant des déploiements multicloud, hybride pour des raisons de sécurité, de coût, de contrôle ».
Techniquement, l’éditeur ne révolutionne pas sa formule. Il s’appuie sur les services d’orchestration de containers (Kubernetes), de calcul, de stockage, de datawarehousing des fournisseurs américains. Sur Azure, il tire parti d’AKS, Azure SQL, Cosmos DB, Azure Blob Storage, Azure VM, Synapse SQL (dont le support a été officialisé en mars, dans la version 9.0 de Dataiku) et d’Azure Databricks. Il est également possible de faire appel aux cognitive services depuis la plateforme. Chez AWS, la suite de data science s’appuie sur EKS, EMR, Amazon S3 Athena, RedShift, ou encore SageMaker.
« La version de Dataiku disponible depuis les marketplaces d’AWS, Microsoft Azure et bientôt GCP s’installe dans les instances de cloud privé des clients. Vous pouvez contracter directement au travers des fournisseurs de cloud pour faire l’acquisition d’une licence de notre solution », affirme Romain Fouache.
S’il s’agit bien là d’une offre « SaaS », self-managed. Dataiku entend tout de même proposer des capacités d’automatisation et vante le support de la plateforme sur Kubernetes. « Dataiku permet, avec la mise en place du service initial, de gérer les ressources de calcul élastique pour les fournir aux data scientists qui ont besoin de puissance de calcul ou des équipes qui administrent la plateforme pour beaucoup d’utilisateurs », affirme le CRO. « Les ressources sont pilotées depuis la plateforme, contrôlées et gouvernées par les équipes IT de votre entreprise », ajoute-t-il.
En clair, Dataiku dispose d’un système d’orchestration des déploiements des environnements de développement, de test et de production, d’appel des ressources ou encore d’exposition des API. « C’est un écosystème de services géré par des instances maîtresses de Dataiku. Il y a un peu d’administration système à faire, mais nos clients peuvent se concentrer sur la réalisation de leurs projets et pas sur l’écriture de ligne de commande sur un OS Unix. », illustre le dirigeant.
Sur AWS et Microsoft Azure, l’offre Dataiku Enterprise Ready AI est facturée à partir de 80 000 dollars par an et donne accès à 5 licences utilisateur, une vingtaine de connecteurs vers des bases de données, des traitements in-memory ou en base de données quand elle supporte Spark, un support standard et une « automatisation limitée ».
« Cela accélère le processus d’acquisition des licences et les déploiements dans les environnements cloud des clients », vante Romain Fouache. « Sur site, il n’y a pas si longtemps que ça, parfois, il fallait attendre six mois avant qu’un client obtienne son serveur et que l’on puisse commencer à installer Dataiku ».
La procédure serait simplifiée dans le cloud.
Tirer parti des mécanismes des contrats cloud
« Comment cela se passe-t-il ? Vous êtes client Microsoft ou AWS, vous allez sur la marketplace, vous pouvez prendre l’offre telle qu’elle existe là. On peut aussi avoir des offres spécifiques pour les grands comptes. Ou bien nous discutons avec le client de ce qu’il souhaite acquérir et sous quelles conditions pour une contractualisation au travers d’un portail dédié aux offres privées », décrit-il.
Pour Dataiku, c’est un nouveau canal de vente qui doit faciliter la contractualisation. « Il y a des frottements simplement liés à l’achat : où trouve-t-on le budget ? Quand signe-t-on le contrat ? La marketplace permet de résoudre cette difficulté », estime Romain Fouache. Pour les fournisseurs de cloud, il s’agit de tenter d’obtenir des engagements de la part des clients pour s’assurer la consommation d’une certaine quantité de ressources. « Pour les clients, c’est aussi un moyen d’utiliser les crédits annuels achetés auprès du fournisseur de cloud ; ils peuvent utiliser leur budget cloud, leur contrat cloud pour déployer Dataiku ».
C’est en effet une des politiques d’achat et de vente désormais bien comprises par les grands groupes et maîtrisées par les fournisseurs de cloud et les éditeurs. Les entreprises budgétisent leur consommation du cloud via un contrat annuel. En clair, elles consomment des crédits et bénéficient généralement d’une réduction des prix auprès du cloudiste.
Il s’agit également pour Dataiku de proposer une alternative au chemin long de la migration vers le cloud. « Une migration n’est pas quelque chose de trivial. Repenser l’architecture, transférer les données, éduquer le personnel… l’on se retrouve souvent avec des délais de deux à trois ans avant de commencer à en tirer les fruits », argumente Romain Fouache. « Nous travaillons avec les fournisseurs de cloud afin de proposer rapidement des cas d’usage opérationnels, puis préparer petit à petit les migrations », assure-t-il.
La verticalisation de Dataiku en discussion
Sur son blog, l’éditeur proposait une revue des intégrations possibles entre Dataiku et les produits SAP. Tout naturellement, il est de bon ton de se demander si la plateforme de data science est vouée à se retrouver sur la place de marché applicative de l’éditeur allemand.
« SAP est une source de données que nous observons extrêmement régulièrement chez nos clients parce que les fonctions internes de finance consomment beaucoup de fonctionnalités disponibles sur Dataiku », reconnaît le CRO. « Nous nous posons effectivement la question pour nous adresser plus directement à des populations de la finance interne, de la logistique ou du RH. Dès lors, est-ce que cela pourrait faire sens de se retrouver sur une marketplace SAP ? Éventuellement, c’est quelque chose que je n’exclus pas, mais ce n’est pas sur notre feuille de route à court terme », répond-il à la question du MagIT.
Dataiku Online, une version managée pour les PME et ETI
Mais Dataiku ne veut pas seulement simplifier le processus de ventes auprès de ses clients grands comptes. Il compte également démocratiser sa solution auprès des métiers intéressés par la data science. C’est en tout cas la promesse de Dataiku Online, une version entièrement managée de la plateforme opérée par l’éditeur sur AWS. L’éditeur vante la capacité de lancer un environnement en deux minutes et souligne tout particulièrement les fonctionnalités de préparation de données, de gestion de pipelines, d’autoML et « d’automatisation avancée ».
« Dataiku Online se marie parfaitement avec nos services en ligne Dataiku Academy. Vous connaissez un peu d’Excel ou vous consultez régulièrement des rapports BI, en deux minutes vous exécutez la plateforme, en une heure vous apprenez les fondamentaux et après cela vous êtes capables de délivrer de la valeur. Ensuite, vous avez tout un ensemble de cours gratuit sur l’Academy », vante Romain Fouache.
Par opposition au chemin classique d’un analyste qui aurait besoin de deux mois pour apprendre le Python, Dataiku Online couplé à l’université de l’éditeur permettrait d’apprendre « au fur et à mesure » et d’entraîner rapidement « un modèle de machine learning sur un jeu de données Excel ».
Dataiku Online est surtout pensé comme un moyen de démocratiser la plateforme de data science auprès des PME et des ETI. Au-delà d’une version d’essai de deux semaines, la version managée de la plateforme se décline en trois forfaits : Ignition, Booster, et Orbit. Ignition est dédié à un seul utilisateur qui manipule des fichiers CSV qu’il télécharge à même la plateforme. Booster accueille jusqu’à cinq utilisateurs, fournit l’accès à tous les connecteurs et permet les traitements SQL depuis Snowflake, BigQuery et RedShift. Orbit inclut dix sièges, des fonctions d’automatisation, de MLOps et active la possibilité d’effectuer des traitements distribués sur une instance Spark. Dataiku Online est facturé à partir de 499 dollars par mois.
Les usagers peuvent toujours installer une version gratuite pour trois utilisateurs de la plateforme sur Windows, macOS, Linux, ou sur des instances Amazon EC2 ou VirtualBox (VMware).
« Nous avons conçu [cette version managée] pour les plus petites sociétés qui n’ont pas d’IT et qui n’ont pas vocation à gérer des systèmes IT. En revanche, elles ont peut-être du Snowflake ou autre chose, et elles veulent déjà commencer à faire des choses intelligentes avec leurs données. Dataiku Online est parfait pour cela », vante Romain Fouache.
Dataiku mise (lui aussi) sur Snowflake
Le CRO cite Snowflake à dessein. Le fournisseur de datawarehouse cloud l’a nommé comme son partenaire privilégié dans la catégorie IA et machine learning, mais a aussi une pris une part dans son capital (comme il l’a fait avec ThoughSpot). Snowflake a récemment dévoilé les avancées de Snowpark et Java UDF, des moyens d’exécuter d’autres langages que la syntaxe SQL sur l’entrepôt de données. Actuellement, la préversion de Java UDF est plus aboutie que le support de R et Python, les deux langages de prédilection de Dataiku. Ce ne serait pas un problème selon Romain Fouache qui insiste sur le fait qu’il est déjà possible de réaliser la préparation de données en SQL et d’ajouter des transformations supplémentaires avec Java UDF à partir de Dataiku (en mode expérimental, suivant la documentation de l’éditeur). Les autres fonctionnalités ont des équivalents ailleurs, considère-t-il, notamment les services Spark sur Kubernetes.
Et comme d’autres, Romain Fouache croit que la combinaison de Dataiku avec Snowflake pour l’entreposage, « éventuellement un Fivetran » pour extraire et transformer les données (ELT) et avec Tableau, forme « la modern data stack ». « Vous vous retrouvez avec une stack complète qui va de l’intégration, au stockage, à l’apport d’intelligence jusqu’à la restitution de la donnée », indique-t-il.
Actuellement, Dataiku revendique plus de 750 employés, dont 350 en France et plus de 450 clients.