Les clés pour comprendre le bras de fer entre Snowflake et Databricks

Introduction

L’un vient du monde du data warehouse, l’autre du data lake. Et pourtant, en partant d’une position opposée, ils sont de plus en plus proches. Snowflake cherche à renforcer ses fonctionnalités liées à l’IA. Databricks fait de même, mais affine également sa prise en charge des entrepôts de données.

Ingénierie de données, FinOps, gouvernance et partage de données, IA générative… globalement les deux acteurs investissent dans les mêmes thématiques, sous l’impulsion de leurs clients respectifs.

De fait, pour le marché, Snowflake et Databricks sont devenus les grands concurrents dans un écosystème auparavant mené par AWS et Google Cloud. L’une des explications de ce phénomène n’est autre que la volonté pour les entreprises de gagner une forme d’indépendance par rapport aux fournisseurs cloud. Snowflake est le premier des deux à comprendre l’importance du multicloud, même si plus de 75 % de sa clientèle exploite d’abord des instances AWS.

Mais il faut aussi noter que les deux éditeurs se sont d’abord distingués sur des segments spécifiques. Et les clients utilisent (ou ont pu utiliser) Databricks et Snowflake de concert. Databricks s’est fait connaître avec son moteur Apache Spark semi-managé, utilisé pour transformer de grands volumes de données et ses outils pour entraîner des algorithmes. Snowflake, pour certains, a remplacé ou remplace les entrepôts et SGBD Oracle, Microsoft, SAP (BW/BW4HANA) ou Teradata. Il a d’abord simplifié la gestion des rapports BI.

Or les grands groupes l’expliquent clairement : ils ne veulent pas subir l’enfermement propriétaire qu’ils ont connu pendant des dizaines d’années. Un verrouillage dont les clés résident principalement dans les formats de données et de tables. En réponse, Databricks a ouvert en 2019 le format de tables de sa couche ACID Delta Lake. Si le format de fichiers open source sous-jacent, Apache Parquet, s’est imposé, l’éditeur n’a pas su convaincre en dehors de son cercle proche.

En revanche, le format de tables open source Apache Iceberg a pris de l’ampleur, au point de pousser l’ensemble des éditeurs de la place à offrir une compatibilité, même partielle, avec cette brique censée simplifier la portabilité des données. Cela lui a pris plus de deux ans, mais Snowflake prend pleinement en charge le format. Databricks les considère comme des tables externes et a lancé UniForm, un moyen de lire les tables Delta avec des readers Iceberg par la génération asynchrone des bonnes métadonnées.

En réalité, le contrôle du format réside dans le catalogue renfermant ces métadonnées. Snowflake et Databricks ont d’abord proposé des catalogues propriétaires, mais l’évolution du projet Iceberg les a obligés à changer d’approche, d’autant que les clients comptent bien sur la réversibilité du format. Snowflake a été le premier à annoncer la conception d’un catalogue open source lors de sa conférence annuelle Data Cloud Summit 2024, ayant eu lieu la première semaine de juin. Il sera disponible dans deux mois. La semaine suivante, lors de Data+AI Summit 2024, Databricks libérait et rendait disponible en direct de son événement annuel une variante ouverte d’Unity Catalog – peu importe si ses mécanismes ne sont pas parfaitement huilés.

La semaine précédente, lors de la conférence annuelle de son adversaire, Databricks faisait une autre annonce : le rachat de Tabular pour un montant compris entre 1 et 2 milliards de dollars. Tabular n’est autre qu’une entreprise montée par les créateurs d’Apache Iceberg. Plusieurs collaborateurs de Snowflake ont dénoncé une forme de prise de contrôle sur le projet : Tabular compte une trentaine de contributeurs réguliers à Iceberg. Une critique qu’Ali Ghodsi, cofondateur et CEO de Databricks a balayé du revers de la main auprès de la presse.

Reste que sur cette thématique comme sur les autres, celles mentionnées dans ce guide essentiel, les deux acteurs ne cessent de se jauger. Un bras de fer qui ne semble que débuter.
Crédits photo : G.Raoul ©Snowflake

1Stratégie-

Databricks gagne du terrain, Snowflake veut s’étendre

Actualités

En France, Databricks gagne du terrain par le bas

Databricks poursuit ses objectifs de croissance en Europe et en France. S’il n’a pas les revenus de son concurrent principal, son lakehouse susciterait l’intérêt des profils techniques et des métiers. Lire la suite

Actualités

Snowflake : la stratégie du « tout-en-un » fonctionne

Snowflake affiche désormais un large portfolio de fonctionnalités. Même si tout ce qu’il entend proposer n’est pas disponible, la « vision » convainc déjà les partenaires et les clients existants. Lire la suite

Actualités

Analytique graphe : Neo4j déploie Graph Data Science sur Snowflake

Dans la foulée de la disponibilité de Snowpark Container Services, Snowflake et Neo4j ont annoncé un partenariat afin de porter en grande partie les librairies de Neo4j Graph Data Science, sur le « Data AI Cloud ». Lire la suite

2Ingénierie de données-

Data as code et no-code

Actualités

Snowflake embrasse la philosophie « data as code »

Lors du Data Cloud Summit, Snowflake a multiplié les annonces dans le but d’outiller les ingénieurs de données, les développeurs et les opérateurs. Outre la nécessité de se mettre à niveau face à la concurrence, l’éditeur entend répondre aux besoins de ces clients en matière de déploiements en production. Lire la suite

Actualités

Lakeflow : Databricks veut unifier sa gestion des pipelines de données

Alors que les fonctions d’ingestion, de transformation de données et de gestion des tâches d’ingénierie de données sont séparées au sein de la plateforme, Databricks souhaite les réunir sous la bannière Lakeflow, à la demande de ses clients. Lire la suite

3FinOps-

Avoir le contrôle du contrôle du coût

Actualités

FinOps : Snowflake infuse la gestion des coûts dans sa plateforme

Pressé par ses clients, Snowflake introduit plusieurs fonctionnalités d’observabilité et de limitation des coûts et rappelle les grands principes de sa facturation. Lire la suite

Actualités

Databricks prône le « 100 % » serverless

Lors de Data+AI Summit, la conférence annuelle de Databricks, Ali Ghodsi, CEO de l’éditeur, a annoncé que l’ensemble des services disponibles depuis la plateforme s’exécuteront en mode « serverless » dès le 1er juillet 2024. Lire la suite

4Gouvernance-

Match nul

Actualités

Snowflake renforce sa couche de gouvernance Horizon

Lors de sa conférence annuelle, l’éditeur du lakehouse a dévoilé un lot d’annonces consacrées à la prise en charge d’Apache Iceberg, enfin en disponibilité générale, et sa couche de gouvernance qui s’étoffe pour simplifier la gestion des données et métadonnées. Reste à réellement généraliser cette gestion à travers plusieurs régions d’un même cloud, puis plusieurs clouds. Lire la suite

Actualités

Databricks étend sa gouvernance au-delà des données et de l’IA

Lors de son événement annuel, Databricks a surtout mis en avant le fait qu’il rend open source les fondations de sa couche de gouvernance, mais sa variante propriétaire s’étoffe pour gérer et tracer davantage d’actifs, ainsi que d’en superviser la qualité et les coûts. Lire la suite

5IA générative-

Une course à l’armement

Actualités

IA générative : Snowflake met les bouchées doubles

Lors du Data Cloud Summit, l’éditeur a largement mis en avant ses capacités d’IA générative et se retrouve, tout du moins sur le papier, coude à coude avec son concurrent Databricks. Reste à convaincre les clients de déployer des projets à l’échelle. Lire la suite

Actualités

IA générative : Databricks étend sa couverture fonctionnelle

Lors du Data+AI Summit 2024, Databricks a annoncé une suite de fonctionnalités pour entraîner et exécuter des modèles d’IA générative sur les fondations de sa plateforme et de celle de Mosaic AI. L’objectif, simplifier la mise en place des processus et des applications. Lire la suite

6Open Source-

Une guerre ouverte autour d’Apache Iceberg

Actualités

Polaris : Snowflake veut élargir l’accès aux tables Iceberg par des moteurs tiers

L’éditeur entend simplifier la centralisation des tables Apache Iceberg et les rendre accessibles à des moteurs de traitement tiers, ouverts ou propriétaires. Un projet qui engage déjà Microsoft, Salesforce, Google Cloud, Dremio, AWS et Confluent. Lire la suite

Actualités

Databricks met la main sur Tabular pour mieux influencer l’avenir d’Iceberg

Databricks se prépare à acquérir Tabular, la startup derrière le format de tables Apache Iceberg. Un signe que l’éditeur ne peut pas soutenir un projet open source sans le contrôler, commente James Malone, directeur de la gestion produit chez Snowflake. Lire la suite

Actualités

En réponse à Polaris, Databricks libère Unity Catalog

Databricks a rendu disponible une version open source de sa couche de gouvernance et d’interopérabilité entre plusieurs moteurs de traitements auprès de la LF AI&Data. Un pied de nez à Snowflake et à son projet Polaris. Lire la suite

Actualités

Rachat de Tabular : Databricks défend sa décision

Dans un point avec la presse, Ali Ghodsi, CEO de Databricks, a réfuté toute volonté de prendre le contrôle du projet Apache Iceberg à travers l’acquisition de Tabular. Lire la suite