Sans surprise, le projet Delta Lake de Databricks va rejoindre la fondation Linux
En toute logique, DataBricks a annoncé que le projet Delta Lake rejoint la fondation Linux. La société à l’origine de Spark veut favoriser l’adoption de sa couche de stockage qui fiabilise les data lakes.
En avril dernier, Databricks avait annoncé le passage à l’open source du composant Delta Lake, à l’origine de la Unified Analytics Platform. À partir du 16 octobre 2019, l’entreprise qui organise le Spark + AI Summit Europe a confié son projet à la fondation Linux.
Delta Lake permet en principe de restructurer et de garantir la qualité des données au sein des lacs de données grâce à une couche transactionnelle ACID au-dessus de HDFS ou d’autres frameworks. Certains le surnomment « Spark on ACID ». L’utilisation du format de stockage Parquet est agrémentée de métadonnées et de capacités de versioning (ou versionnage) pour faciliter l’actualisation des données. Cela permet également de supprimer les informations dans le cadre du RGPD, selon les différents intervenants présents lors de l’événement. Le composant assure ainsi un meilleur traitement des informations pour former des data pipelines. Il s’agit également d’un prérequis essentiel pour appliquer des algorithmes de machine learning et des rapports analytiques pertinents.
Selon Ali Ghodsi, PDG de Databricks, pas moins de 4 000 entreprises utilisent le composant depuis son lancement en octobre 2017. « Delta Lake traite plus de 2 exaoctets de données par mois », affirme-t-il. Un tel projet intéresse notamment Booz Allen Hamilton, Alibaba et Intel. Le géant chinois du cloud le propose déjà à ses clients à travers une offre dédiée. Il a notamment travaillé sur un connecteur Hive natif pour le framework. Le fabricant de semiconducteurs est un partenaire d’Apache Spark depuis 2015 et considère que ses produits Optane sont complémentaires des technologies proposées par Databricks.
Favoriser l’adoption de Delta lake par le biais de la fondation Linux
Ali GhodsiPDG, Databricks
Pour Ali Ghodsi, intégrer la fondation Linux est une transition naturelle : « Au départ, nous proposions Delta par le biais de Databricks. Nos clients ont rapidement réclamé le passage à l’open source. Ce que nous avons fait. Afin d’obtenir une gouvernance indépendante, nous le confions à la fondation Linux. Intel et Alibaba la rejoignent également afin de suivre le projet ».
Comme nous le signalions en mai dernier au moment du passage à l’open source, l’objectif premier est d’accroître la taille de la communauté. « Nous pensons que l’adoption et les options autour de Delta lake vont exploser. Nous le voyons déjà et la demande augmente fortement autour du projet. Même nos clients utilisent davantage Delta aujourd’hui qu’il y a six mois parce que la technologie est libre », affirme le responsable.
Typiquement, Databricks suit la même approche qu’avec Apache Spark, un autre projet open source dont elle est à l’origine. Après avoir « libéré » Delta, puis avoir délégué la gouvernance à un organisme indépendant, la société compte lancer des formations, puis organiser des Moocs. « Former la communauté et entamer des collaborations favorisent une adoption massive », assure le PDG.
Cela passe également par l’ajout de nouvelles fonctionnalités. Lors de la conférence d’ouverture à Amsterdam, Michael Armbrust, directeur de l’ingénierie logicielle chez Databricks, a présenté les apports d’Apache Spark 3.0 pour la couche transactionnelle, dont l’optimisation des requêtes SQL et d’un Data Catalog. Un aperçu de ces ajouts sera disponible au cours de ce trimestre. Lors des sessions, Tathagata Data, développeur en chef, a, lui, évoqué l’arrivée au début de l’année 2020 d’une API déclarative permettant de générer des graphes orientés acycliques (DAG) correspondant aux flux de données des pipelines de Delta.
Open Core de la tête aux pieds
Cela ne change en rien la stratégie commerciale de la société. Contrairement à d’autres comme Red Hat qui vendent le support de leur plateforme, Databricks propose un service managé dans le cloud facturé à l’heure, sur Microsoft Azure et sur AWS. La Unified Data Analytics Platform intègre Delta corrélé à Spark (plus particulièrement Structured Streaming), des connecteurs vers les SaaS BI (Tableau, Looker, Qlik ou encore Power Bi), et des frameworks de machine learning comme Tensorflow, Pytorch, XGBoost, ainsi que MLFlow qui comprend une plateforme collaborative de suivi de conception d’algorithmes.
Le PDG considère comme bénéfique cette ouverture parce que les clients « ne veulent pas être enfermés auprès d’un vendeur ». Un discours convenu. Quand bien même certains acteurs pourraient distribuer le framework, il assure que le savoir de ses équipes fait de son entreprise un partenaire de premier choix. La véritable concurrence provient selon lui des sociétés qui réalisent le déploiement elles-mêmes.
Les fournisseurs de cloud sont, eux, des partenaires privilégiés « Nous souhaitons poursuivre notre intégration avec eux. Nous les aimons et ils nous aiment parce que le volume de données traitées par mois via Delta Lake représente des gains financiers importants », déclare Ali Ghodsi.