Rachat de Tabular : Databricks défend sa décision
Dans un point avec la presse, Ali Ghodsi, CEO de Databricks, a réfuté toute volonté de prendre le contrôle du projet Apache Iceberg à travers l’acquisition de Tabular.
Dans le petit monde des données, le format de table de données Apache Iceberg a été au centre de l’actualité.
Depuis les débuts de l’entreposage de données, les éditeurs ont fait en sorte de contrôler le format de données afin de pouvoir empêcher les clients de se tourner aisément vers d’autres fournisseurs. L’ère du stockage objet et l’arrivée sur la place de moteurs de requêtes et de format de données open source a changé la donne. L’idée, permettre une forme d’indépendance par rapport aux moteurs de requêtes et aux espaces de stockage.
Cette tendance émergeant de l’ère Hadoop a été mise en œuvre par quelques acteurs, dont Databricks. Son format de tables Delta Lake, donné à la Fondation Linux en 2019, perd peu à peu en popularité face à Apache Iceberg. Comme Delta Lake, Iceberg enrobe des fichiers Apache Parquet de métadonnées afin de conserver plusieurs versions d’une même table, retrouver des informations, et les gouverner (entre autres).
La semaine dernière, Databricks a annoncé l’acquisition de Tabular, une startup dont les fondateurs sont les créateurs originaux du format Iceberg. Lors du Data+AI Summit 2024, l’éditeur a précisé ses intentions. Il entend « rapprocher Delta Lake et Iceberg » pour que plus personne ne se pose la problématique éculée liée aux multiples standards USB.
Un « rapprochement entre Apache Iceberg et Delta Lake »
Selon Ryan Blue, cofondateur de Tabular et d’Apache Iceberg, « les deux formats sont suffisamment bons pour que cela ne justifie plus la déduplication des efforts ».
Toutefois, les parties prenantes n’ont pas expliqué comment. L’on sait juste que ce rapprochement passera par UniForm. UniForm est un mécanisme open source mis sur pied par Databricks pour lire les tables au format Delta avec les clients Iceberg et Apache Hudi, comme s’ils traitaient des données dans leur format respectif. Cette fonction revient ni plus ni moins à la conversion de la couche de métadonnées dans des éléments propres au format Delta Lake. « UniForm prend déjà en charge les deux formats de table, nous avons juste à le rendre meilleur », assure Ali Ghodsi, PDG de Databricks. « Quant aux efforts à mener pour ce rapprochement, c’est une question très technique et difficile à répondre. Personne aujourd’hui n’a la réponse, mais Ryan Blue et Michael Armbrust, le créateur de Delta Lake, vont travailler ensemble afin d’essayer de déterminer les décisions techniques à prendre », ajoute-t-il.
Selon le dirigeant de Databricks, les deux ingénieurs ont toutefois « des pistes solides » pour y arriver. « Ils pensent que c’est faisable. En réalité, ils sont plus optimistes quant à la vitesse de ce rapprochement que je ne le suis. J’espère qu’ils ont raison et moi tort ».
Dans un même temps, certains porte-parole chez le concurrent direct de Databricks, Snowflake, ont perçu l’acquisition de Tabular comme un moyen de prendre le contrôle sur Apache Iceberg. Selon les statistiques partagées par Dremio et Cloudera, environ 20 à 30 % des contributions au projet Apache Iceberg (la part la plus importante) proviennent des ingénieurs engagés par Tabular.
Un autre concurrent souligne le fait que Databricks propose des implémentations propriétaires de technologies open source.
« En dépit de ses prétentions en tant que société d’hébergement de données ouvertes, Databricks n’est PAS réputée pour être fidèle à l’open source », répond Venkat Rajaji, SVP Product Management chez Cloudera, dans un billet de blog. « Contrairement à Tabular, Databricks a réalisé des versions commerciales sous la forme d’implémentations propriétaires de technologies open source afin de conserver la fidélité de ses clients, et il faudra voir si ce changement [le rachat de Tabular par Databricks] modifie cette approche ».
Pas de prise de contrôle d’Apache Iceberg, selon Ali Ghodsi
Des arguments qu’Ali Ghodsi entend balayer du revers de la main.
« Selon nos calculs les plus récents, nous avons contribué 12 millions de lignes de code dans des projets open source à ce jour. Nous sommes l’entreprise indépendante open source la plus importante en matière de chiffre d’affaires. Cette place était auparavant occupée par Red Hat, mais elle fait partie d’IBM maintenant », rétorque-t-il.
« Nous contribuons sûrement bien plus à l’open source que la majorité des entreprises sur la planète en ce moment », s’exclame-t-il. « Cette conférence [Datai+AI Summit] est là pour rendre honneur à cet écosystème ».
Outre le fait que Databricks ne veut pas couper les liens avec les communautés open source, Ali Ghodsi considère que « si les projets comme Apache Iceberg, Delta Lake, MLFlow, Spark, etc., ne se portent pas bien, ce n’est ni bon pour l’écosystème Data, ni pour Databricks ».
« S’il en était autrement, cela ne vaudrait pas le coup d’investir autant d’argent dans cet écosystème », défend-il.
Ali GhodsiPDG de Databricks
Concernant la communauté Iceberg, Ali Ghodsi assure qu’il a eu de « multiples discussions » avec Ryan Blue. « Comment faire en sorte de rester proche des intentions de la communauté ? Comment fait-on en sorte qu’il y ait de la diversité ? Comment faire en sorte qu’Apache Iceberg continue de se développer ? Ce sont des questions importantes pour Ryan Blue, mais aussi pour nous », avance le CEO de Databricks.
Enfin, si Databricks n’aime pas citer son compétiteur direct, cela ne veut pas dire qu’il refusera de collaborer avec les contributeurs engagés par Snowflake.
« Un projet open source est généralement composé de contributeurs et au moins d’un comité de gouvernance », rappelle le dirigeant de Databricks. « Si les membres du comité de gouvernance sont engagés par Snowflake, je ne crois pas que ce soit le cas pour Apache Iceberg, alors nous travaillerons avec eux, sans problème. Nous le faisons avec de nombreuses entreprises depuis de nombreuses années ».