Sergey Bogomyako - stock.adobe.c
Avec CDP One, Cloudera présente lui aussi un data lakehouse
L’éditeur élargit sa gamme d’offres avec le lancement de CDP One, un service initialement disponible uniquement sur AWS qui permet un déploiement serverless d’un data lakehouse dans le cloud.
Cloudera a lancé mercredi Cloudera Data Platform One, une nouvelle option de déploiement pour les clients du data lake de l’éditeur.
Pour rappel, le spécialiste de la gestion de données propose la Cloudera Data platform depuis 2019.
Issue de la fusion des solutions Cloudera et Hortonworks, cette plateforme combine l’entreposage de données, le machine learning et l’analytique dans environnement cloud natif déployable sur les clouds publics et privés.
CDP One représente l’ajout d’un service de data lakehouse entièrement géré, au sein duquel Cloudera gère à la fois le calcul et le stockage pour le compte des utilisateurs.
Un data lakehouse est un service destiné à conjuguer les meilleurs éléments d’un entrepôt de données traditionnel avec la flexibilité d’un data lake. Techniquement, cette approche consiste à imposer une couche ACID par-dessus un système de stockage objet. Parmi les autres acteurs qui proposent des services de data lakehouse totalement managés, citons Databricks, Dremio et Google Cloud.
Cloudera prétend que la plateforme permet d’ingérer (en batch ou en streaming), de préparer, d’analyser et de publier les données vers des applications cibles. Comme à son habitude, l’éditeur met à disposition un ensemble d’outils tirés de projets open source dont NiFi, Apache Spark, Hive, Impala, YARN, Flask ou encore Streamlit. Les traitements de données peuvent être écrits depuis des notebooks ou travers une interface low-code en SQL, Python, R et Scala.
Potentiel de croissance
Cette nouvelle option pourrait ouvrir la plateforme Cloudera à un nouvel ensemble de clients potentiels, selon Doug Henschen, analyste chez Constellation Research. L’ajout d’une option entièrement gérée pourrait permettre au fournisseur d’atteindre certaines petites et moyennes entreprises qui ne disposent pas du personnel d’ingénierie nécessaire pour faire fonctionner une plateforme de gestion de données.
« La plateforme de données de Cloudera est très puissante et elle est très évolutive, mais elle peut être difficile à déployer et à piloter », souligne Doug Henschen. « Ce service managé par l’éditeur permettra à une base plus large de clients de profiter plus facilement de la data science, de l’ingénierie des données et des capacités SQL et analytique de Cloudera ».
Pour rappel, Cloudera était coté en bourse jusqu’en 2021 avant sa privatisation en juin de l’année dernière.
Selon Ram Venkatesh, directeur technique de Cloudera, dans les versions originales de CDP, Cloudera séparait les capacités de stockage et de calcul de la plateforme. Cloudera gérait la couche de calcul dans le cloud, tandis que les données résidaient dans des services de stockage que les organisations administraient elles-mêmes.
Avec CDP One, les clients ont l’option d’une offre serverless entièrement gérée, ce qui, selon Ram Venkatesh, manquait dans le catalogue d’offres de Cloudera.
« Nous pouvons [désormais] prendre en charge un [déploiement] serverless avec CDP One dans la même architecture, sans modifier les éléments de conception sous-jacents de l’ensemble de la plateforme », affirme le CTO. « Pour nous, il s’agit de s’assurer que la charge de travail se concrétise au bon prix. »
En premier lieu, CDP One ne sera disponible que sur AWS. L’éditeur ne propose pas encore d’options pour Google Cloud Platform (GCP) ou Microsoft Azure.
Ram Venkatesh a toutefois déclaré que Cloudera reconnaît l’importance de prendre en charge les déploiements sur plusieurs clouds, étant donné que de nombreuses organisations n’utilisent pas AWS, ou exploitent plus d’un cloud pour leurs données et leurs besoins d’analytiques. Le fournisseur cherchera, au fur et à mesure de la maturation du service, à prendre en charge d’autres clouds publics.
« La bonne nouvelle, c’est que le moteur sous-jacent de CDP est tout à fait capable de prendre en charge AWS, Azure et GCP », vante-t-il.
Un effort de sécurité supplémentaire pour Cloudera
Avec le lancement de CDP One, Cloudera renforce également la sécurité des données et la prise en charge de la conformité.
Selon le CTO de Cloudera, maintenant que le fournisseur prend en charge la gestion des données de ses clients, il doit répondre à des exigences accrues en matière de sécurité des données, de confidentialité et de résidentialité.
« Cloudera est responsable du stockage et de la gestion des données avec CDP One », répète-t-il. « Nous ne nous contentons plus de permettre le traitement des données. Cela signifie que nous devons être conscients de l’endroit où se trouvent les données et des considérations régionales en matière de confidentialité des données. »
CDP One est accessible aux clients inscrits à l’essai et sera proposé en disponibilité générale plus tard cette année.