Cloudera complète sa Data Platform avec trois services à la demande
Il y a deux ans, Cloudera entamait sa fusion avec Hortonworks. Officialisée en janvier 2019, l’opération avait suscité de nombreuses questions concernant l’avenir de ces spécialistes d’Hadoop. Plus d’un an plus tard, le nouveau groupe poursuit le développement de Cloudera Data Platform (CDP) dans le cloud public et privé tout en maintenant les versions sur site.
« Au moment de la fusion, Cloudera et HortonWorks ont décidé d’une feuille de route avec plusieurs aspects, dont le passage à une plateforme commune pour les clients sur site et il y avait des projets extrêmement agressifs sur le cloud public : du self-service, de la facturation à l’usage, de l’autoscaling, une version managée, etc. Bref, tout ce qui n’existait pas dans le monde traditionnel de Cloudera », se rappelle Denis Fraval, directeur avant-vente EMEA chez Cloudera.
Tandis que le portage l’ensemble de l’offre historique de Cloudera en mode cloud natif a demandé « un travail très lourd de développement et la prise en compte des différentes briques et contraintes technologiques des fournisseurs cloud », le développement de Cloudera Data Platform dans le cloud public a commencé par le déploiement des offres Data Warehouse et Machine Learning. « Il s’agissait des offres les plus demandées, mais surtout les plus modernes, donc les plus faciles à porter dans un mode cloud natif », explique le responsable.
Récemment, Cloudera a ajouté trois produits à Cloudera Data Platform (CDP) Public Cloud : Data Engineering, Operational Database (OpDB) et Data Visualization.
Cloudera Data Engineering : une brique attendue par les clients
Cloudera Data Engineering (CDE) est donc présenté comme un service serverless pour CDP qui permet de soumettre des jobs Apache Spark développés en Java, Scala ou Python à un cluster doté d’une mise à l’échelle automatisée.
La solution repose sur un environnement cloisonné incluant un VPN spécifique, CDE Service et un cluster Kubernetes qui permet de créer des clusters virtuels dotés d’une capacité d’autoscaling. Ce sont sur ces clusters virtuels qu’il est possible d’exécuter des jobs Spark. L’orchestration K8s est couplée avec Yunikorn, un planificateur de ressources universel open source développé par les équipes de Cloudera. Dans cette version managée, l’éditeur donne accès à un service de supervision, une interface graphique pour contrôler et limiter au besoin la consommation de ressources et le nombre d’instances.
Les workflows et la création de pipelines Spark peuvent être provisionnés, suivis et planifiés via Apache Airflow ou d’autres briques équivalentes via API. L’utilisateur ne gère pas ces composants, tout se déroule depuis l’interface utilisateur de CDP. Le Data Engineer peut obtenir des informations supplémentaires sur un job particulier en cliquant sur sa représentation dans l’interface. Il accède alors à des onglets pour voir les logs, obtenir une visualisation des performances et des ressources consommées.
Denis FravalDirecteur avant-vente EMEA, Cloudera
S’il n’y a donc pas besoin d’administrateur pour visionner les logs (par exemple), il faut au préalable paramétrer les services VPN, d’orchestration, DNS, KMS, de Load Balancing, de base de données et de stockage objet du fournisseur cloud associé.
« La partie Data Engineering représente probablement plus de la moitié des cas d’usage que nous avons sur les plateformes Cloudera », assure Denis Fraval.
Conscient de cette particularité, l’éditeur veut suivre les évolutions de Spark, récemment passé en version 3.x. « Nous avons une dynamique de mises à jour beaucoup plus fréquentes. Nous allons aussi améliorer l’aspect multitenant pour isoler les voisins bruyants, par exemple des expérimentations de machine learning qui peuvent perturber des jobs ETL en production », explique le responsable.
Cette capacité permettrait également d’exécuter des flux sur Spark 2.x pour « des cas d’usage qui demandent des compatibilités avec certains outils tiers » et de lancer de nouveaux pipelines avec Spark 3.x. « La plateforme Cloudera communique en permanence avec des outils tiers. S’il faut être compatible avec tout le monde, c’est mieux d’avoir cette segmentation de l’évolution des différents composants », préconise Denis Fraval.
Operational Database : une version managée de HBase
Quant à Operational Database, il s’agit d’une version managée de la base de données NoSQL HBase. Elle aussi dotée de capacités d’autoscaling et d’un mode de déploiement dans des environnements cloisonnés, OpDB permet d’ingérer des données depuis une source de données via Kafka et Spark ou via NiFi. Par-dessus HBase, l’on retrouve Apache Phoenix, le moteur de base de données relationnelle massivement parallèle et capable de supporter des traitements OLTP. Il sert d’interface API pour transformer des requêtes SQL en scans HBase pour générer des résultats accessibles via JDBC. Phoenix est compatible avec les moteurs de requêtes Hive et Impala.
La grosse différence avec les distributions existantes de HBase par Cloudera réside dans le fait que les fichiers clés-valeurs HFILES ne sont pas stockés dans HDFS, mais dans un système de stockage objet Amazon S3 ou Microsoft ADLS Gen2. Apache HDFS est tout de même utilisé pour écrire les logs WALS (Write Ahead Logs).
« Officiellement, OpDB devait arriver plus tard, mais notre équipe d’ingénieurs a accéléré la livraison après avoir obtenu de bons résultats » vante le directeur avant-vente. « Nous allons proposer Cloud DataFlow as a service et sûrement la partie Cloudera Search propulsée par Solr qui arrivera par la suite, et nous aurons pratiquement la totalité du portefeuille Cloudera en mode cloud natif », ajoute-t-il.
Cloudera marche en quelque sorte sur les pas des éditeurs de bases de données NoSQL comme DataStax et MongoDB qui ont déjà passé le pas du DBaaS. Cependant, on l’imagine mal venir concurrencer ces éditeurs spécialistes du sujet. Il s’agit d’une brique importante supplémentaire que Cloudera propose de gouverner et de sécuriser avec SDX, tout comme les autres produits de CDP Public Cloud cités.
Ces versions managées impliquent la délégation des montées de version aux équipes de l’éditeur. La plupart des clients actuels ayant déployé eux-mêmes Cloudera Data Platform comme une PaaS sur une infrastructure cloud doivent aujourd’hui administrer les composants cités ci-dessus.
« Maintenant que CDP cloud public s’enrichit avec les composants dont ils ont besoin, nous observons un accueil très favorable », affirme Denis Fraval. D’après ses dires, cette version managée de CDE complète leurs environnements pour des expérimentations ou certaines tâches plus simples à gérer avec une version managée.
De la visualisation dédiée à l’exploration de données
À ces deux offres s’ajoute CDP Data Visualization. « C’est notre part innovation dédiée à la BI et à la Data Science », indique le responsable. Cette nouvelle brique reprend la solution de visualisation de données d’Arcadia Data, un éditeur racheté par Cloudera il y a un an. D’abord proposé comme une solution indépendante, Cloudera a souhaité utiliser les briques de cette solution pour créer CDP Data Visualization. « Cela permet l’exploitation visuelle de modèles de machine learning, mais également de requêtes SQL », assure Denis Fraval. « Nous avons des utilisateurs autonomes capables d’exploiter leurs modèles de machine learning qui ne veulent pas dépendre d’une solution tierce en ce qui concerne l’exploration visuelle des données », justifie-t-il.
Cette couche de visualisation de données est disponible dans les offres Data Warehouse et Machine Learning. Elle s’appuie sur le Data Visualization Engine et la couche Smart Acceleration d’Arcadia. Elle doit permettre de partager et déployer des diagrammes ou des graphiques en glisser-déposer. L’outil peut recommander des visualisations via des requêtes effectuées en langage naturel. « Cette solution n’a pas vocation à remplacer les outils BI de nos partenaires Power BI, Microstrategy ou encore Qlik », prévient Denis Fraval.
Cloudera chahuté par des étoiles montantes… et les géants du cloud
Porteur d’une vision open source, Cloudera se retrouve quelque peu bousculé par des acteurs comme Snowflake, Databricks, mais aussi les fournisseurs de cloud comme AWS, Google ou Microsoft qui veulent eux aussi fournir des « plateformes » complètes dédiées à la BI et la Data Science.
« Cela valide la stratégie de Cloudera qui a toujours été de fournir un couteau suisse pour le traitement de la donnée, de son ingestion jusqu’à sa restitution à l’utilisateur final », déclare Denis Fraval, confiant.
Denis FravalDirecteur avant-vente EMEA, Cloudera
« Certains acteurs que vous citez ont une expertise sur une des étapes de la gestion de la donnée et se sont tout simplement aperçus que leurs clients veulent couvrir l’ensemble du cycle. Ils essayent d’étendre leurs champs fonctionnels en venant ajouter des briques pour le faire. Nous en sommes relativement loin : ils couvrent les besoins urgents de leurs clients », estime le directeur avant-vente.
« Ce qui nous embête un peu, c’est que certains d’entre eux ne versent plus ces nouveaux développements dans les communautés open source. C’est un peu dommage. De plus, ils créent une dépendance technique qui empêche la réversibilité. Cela nous embête beaucoup plus et surtout cela embête nos clients. Le principe du Big Data selon Cloudera, c’est de manipuler des données dans des formats ouverts et selon une approche multicloud », défend Denis Fraval.