« Delta Lake est mort » (Benoît Dageville, Snowflake)
Si le cofondateur et actuel président du produit chez Snowflake est conscient qu’il vend la peau de l’ours avant de l’avoir tué, il est persuadé que le format de données Apache Iceberg a déjà gagné la guerre contre Delta Lake, celui porté par Databricks.
Lors du Snowflake World Tour Paris, Benoît Dageville, cofondateur et président du produit chez Snowflake, est revenu auprès de la presse française sur son combat technico-commercial avec son adversaire préféré, Databricks.
Un combat qui implique le face-à-face entre Delta Lake, soutenu par Databricks, et Apache Iceberg, supporté par Snowflake (et beaucoup d’autres).
Pour rappel, Apache Iceberg est un format de tables ouvert de plus en plus apprécié par les entreprises. La promesse ? Gagner en indépendance par rapport aux fournisseurs de solutions de stockage et de traitement de données. Ce serait également un gage pour les entreprises en provenance du monde Hadoop qui souhaiteraient moderniser leur pile technologique tout en conservant cette forme d’indépendance, selon Benoît Dageville.
« Iceberg est la technologie d’interopérabilité pour les architectures lakehouse. Nos gros clients qui avaient réalisé des investissements majeurs sur Hadoop convergent désormais vers ce format de données et cette architecture », assure-t-il. « Ils veulent utiliser Snowflake comme un des outils de leur écosystème de traitement de données ».
Le rachat de Tabular, un aveu de la supériorité d’Iceberg ?
Pour Databricks, offrir un format de tables ouvert n’est pas nouveau. Il a confié son propre format de données, Delta Lake à la Linux Foundation en 2019. Or, certains avantages d’Apache Iceberg, ainsi que le supposé contrôle de Databricks sur Delta, tendent à faire pencher la balance pour Apache Iceberg chez plusieurs éditeurs et entreprises.
Selon Benoît Dageville, même Databricks s’est rendu compte de la supériorité d’Apache Iceberg.
La preuve pour le dirigeant, en marge de l’événement de Snowflake, Data Cloud Summit, Databricks a annoncé l’acquisition de Tabular, l’entreprise embauchant les principaux contributeurs du projet Apache Iceberg.
Si Ali Ghodsi, cofondateur et CEO de Databricks, a tôt fait de dissiper l’éventuelle prise de contrôle sur le projet porté par la fondation Apache, il a également évoqué les intentions de son entreprise de rapprocher les deux formats de tables, sans réellement préciser la démarche et renforcer la prise en charge d’Apache Iceberg tel qu’il existe actuellement.
Il ne peut en rester qu’un
« Pour la petite histoire, il y a trois formats de données ouverts : Apache Hudi, Delta Lake et Apache Iceberg. C’est Iceberg qui est en train de gagner à mon sens », liste Benoît Dageville.
« Le rachat de Tabular annonce la mort de Delta. Ils [Databricks et les entreprises] ont compris que le véritable format open source qui n’est pas à la main d’une entreprise, c’est Iceberg », poursuit-il.
Benoît DagevilleCofondateur et président du produit, Snowflake
« Il n’y a aucun intérêt à une guerre des formats. Ce n’est pas si difficile de prendre en charge l’un ou l’autre des formats de tables, ce n’est qu’une question de petite quantité de métadonnées. Le tout c’est de se mettre d’accord. Et cette acquisition représente la victoire d’Iceberg », considère Benoît Dageville.
« Delta est mort, ça c’est clair. Cela va prendre un peu de temps, mais tous nos clients bougent sur Iceberg », répète-t-il. Certains acteurs, dont Starburst et Dremio ont également fait part de leur préférence pour Iceberg.
Pour autant, le développement de Delta Lake se poursuit. La version 4.0 du projet est entrée en préversion cet été.
Après de (très) longs mois en préversion, la disponibilité générale d’Apache Iceberg sur Snowflake a été annoncée en juin dernier. Officiellement, sur les 10 249 clients de Snowflake recensés au deuxième trimestre fiscal 2025, « plus de 400 clients utilisent Iceberg » avec de « nouvelles charges de travail », signale Michael Scarpelli, directeur financier de Snowflake, lors de la présentation des résultats financiers.
Les investisseurs craignaient que les clients de Snowflake s’appuient sur d’autres briques de stockage. « Nous n’avons pas vu de clients déplacer leurs données hors de Snowflake », affirme le CFO. « Le stockage représente toujours environ 11 % de nos revenus », un taux constant depuis quelques trimestres.
Unity vs Polaris : la guerre des catalogues fait rage
Il y a pourtant un autre moyen de contrôler la dépendance à une plateforme, malgré l’ouverture du format de données : c’est le catalogue de métadonnées qui régit les fonctions principales du format, dont son accès par plusieurs moteurs de traitement de données. Or le marché réclamait un metadata catalog open source.
Là encore, Snowflake et Databricks s’affrontent. Lors du Data Cloud Summit en juin, Snowflake a présenté Polaris, un projet qu’il pensait ouvrir trois mois plus tard. Il l’a finalement confié en incubation à la fondation Apache au mois de juillet 2024.
« Polaris est aussi un service qui sera prochainement en disponibilité générale », affirme Benoît Dageville.
Databricks, dans un grand moment de communication, a dégainé la semaine suivante Unity Catalog, confié à la LF AI&Data.
Sur le papier, ces deux outils servent les mêmes fonctions, de gestion des accès aux tables Iceberg. Sur le papier seulement, dit le cofondateur de Snowflake.
« Ce n’est pas le même Unity Catalog disponible dans la plateforme Databricks. Il n’y a pas toutes les fonctionnalités de la version propriétaire », lance Benoît Dageville. « Au lancement, c’était une position marketing. J’ai consulté le dépôt GitHub à ce moment-là, il y avait moins de 4 000 lignes de code. Polaris en avait bien plus », déclare-t-il de mémoire.
Databricks avait présenté quelques éléments, mais il avait indiqué que toutes les fonctionnalités principales de son catalogue ne seraient pas disponibles dès le départ. La version 0.2 d’Unity Catalog est disponible depuis hier. Elle prend en charge différents systèmes d’authentification basée sur OAuth/OIDC, des API d’authentification à S3, Azure, GSC, et renforce la prise en charge des modèles de machine learning enregistrés dans MLFlow, ainsi que la gestion des tables Delta avec Apache Spark et Delta Lake.
Apache Polaris n’a pas encore de release note pour suivre les avancées du projet. Pour l’heure, la page GitHub d’Unity comptabilise 70 contributeurs et plus de 2 300 étoiles, un signe de la popularité du projet. Apache Polaris a pour l’heure 48 contributeurs et plus de 1 000 étoiles. Les deux projets, somme toute très jeunes et encore incomplets, n’offrent pas d’information sur le nombre de téléchargements.