sdecoret - stock.adobe.com
Avec Lakehouse Apps, Databricks poursuit son bras de fer avec Snowflake
En amont de Data+AI Summit, l’événement consacré à Apache Spark, MLFlow et Delta Lake, Databricks a présenté certains éléments de sa feuille de route. L’entreprise privée, qui a annoncé avoir généré 1 milliard de dollars de revenus annuels auprès de Bloomberg, tente de rattraper son concurrent Snowflake.
Si Databricks a popularisé la notion de Lakehouse, les utilisateurs de la plateforme l’ont d’abord exploitée comme une distribution commerciale d’Apache Spark. Petit à petit, l’éditeur a réussi à convaincre ses clients d’adopter les différentes briques de son architecture.
Il faut dire que la plateforme de son adversaire Snowflake s’avère aussi robuste qu’elle coûte cher, d’après les retours de plusieurs clients auprès du MagIT.
Les ingénieurs de What If Media Group sont publiquement du même avis. L’éditeur d’une plateforme d’acquisition clientèle affirme avoir diminué de 76 % ses coûts d’infrastructure « data » en migrant de Snowflake vers Databricks. Un joli coup de publicité pour le second.
Reste que Databricks doit se mettre à niveau. Depuis deux ans, Snowflake a réussi à convaincre les entreprises d’adopter sa solution pour partager/échanger des données et, petit à petit, bâtir des applications qui les exploitent.
Lakehouse Apps : des applications natives par-dessus Delta Lake
En réponse, Databricks a annoncé Lakehouse Apps, un moyen de développer « des applications natives » par-dessus sa plateforme de traitement de données.
« Les Apps sont des logiciels que nos clients peuvent exécuter dans leurs instances Databricks pour effectuer des calculs », résume Matei Zaharia, CTO et cofondateur de Databricks, lors d’un point presse.
Ces applications correspondent à des modèles d’IA, dont de grands modèles de langage (LLM), des notebooks de transformation de données, des modules de visualisation ou à des logiciels standards, selon les propos du directeur technique.
Matei ZahariaCTO et cofondateur de Databricks
Les développeurs peuvent utiliser le langage et les frameworks de leur choix : le code sera exécuté dans des conteneurs isolés, associés à un mécanisme d’autoscaling.
« Les Apps sont exécutées dans un environnement sandbox où vous pouvez mettre certaines de vos données et voir les résultats après traitement, mais les applications ne sont pas autorisées à communiquer avec l’Internet et à exfiltrer vos données », ajoute le CTO.
Ces environnements sandbox pourront être configurés à l’aide d’Unity Catalog, le data catalog récemment introduit par l’éditeur. Il permet de sélectionner les ressources à partager et d’en gérer les accès.
« Les Apps ont accès à un nombre restreint de requêtes sur des tables spécifiques d’une instance Databricks », décrit Matei Zaharia. Sous le capot, « vous pouvez utiliser Spark, exécuter des requêtes SQL ou nos fonctionnalités de machine learning ».
En clair, tant que les applications exploitent Scala, R, Python, Java et SQL ainsi que des frameworks comme TensorFlow, Pytorch ou scikit-learn, elles pourront lancer des traitements sur la plateforme.
Snowflake, AWS ou encore GCP avec BigQuery fournissent, eux aussi, des sandbox sécurisés sous la forme de « salles blanches » (Data Clean Rooms en VO).
Un écosystème à convaincre
Par la suite, Databricks compte faciliter la monétisation de ces Lakehouse Apps depuis sa marketplace. Selon Matei Zaharia, il s’agit d’abord de convaincre les éditeurs. « Ces capacités permettent aux éditeurs de cibler leurs clients sans avoir à gérer un processus de déploiement complexe », assure-t-il. « Normalement, si vous vendez un logiciel qui exploite les données sensibles d’une entreprise, vous avez besoin d’une architecture sécurisée, vous devez faire en sorte que les données ne sortent pas de la région cloud choisie par le client, gérer en conséquence les logs tout en prouvant que vous avez pris ces bonnes mesures, etc. Nous nous occupons de ces aspects pour nos clients ».
Dans un billet de blog, les porte-parole de Databricks vantent la possibilité pour ces fournisseurs d’atteindre plus de 10 000 clients qui exploitent d’ores et déjà son lakehouse.
Pour l’instant, Lakehouse Apps est accessible en préversion privée et devrait entrer en disponibilité générale au cours de l’année prochaine. En attendant, Databricks s’entoure de partenaires, principalement des startups : Posit, Retool, Plotly, Kumo.ai, Immuta, codeium, Lamini et Habu.
Ces dernières ne développent pas des applications spécifiques, mais fournissent des outils pour « manipuler simplement des données » (le positionnement de Plotly, de Retool ou de Kumo), pour déployer des IDE (Posit, ex-RStudio) et des extensions de complétion de code (codeium), pour lancer des « salles blanches » (Immuta, Habu) ou encore pour entraîner des LLM (Lamini).
Ici, il s’agit de mettre le pied à l’étrier des clients existants de Databricks qui souhaiteraient distribuer ou réutiliser des applications, des données et des modèles de machine learning au sein de leur organisation ou auprès de leurs partenaires.
Une marketplace enfin disponible
Avant que Lakehouse Apps ne s’impose, Databricks doit convaincre ses clients d’utiliser sa marketplace dont la disponibilité générale est prévue le 28 juin. Pour l’occasion, l’éditeur annonce que sa place de marché permettra de partager ou de vendre des modèles d’IA, tandis que quatorze nouveaux fournisseurs tels que le London Stock Exchange Group, IQVIA, Accuweather, le Nasdaq ou encore ZoomInfo y proposent des jeux de données et des notebooks.
« Les fournisseurs dans les domaines de la finance, du commerce et la santé sont sûrement les plus actifs, mais il y a aussi des jeux de données météorologiques ou en lien avec la RSE. Toutes sociétés souhaitant partager ses données peuvent le faire sur notre marketplace », indique Matei Zaharia.
Pour autant, Databricks ne s’occupe pas de la monétisation. Les vendeurs de data sets mettent à disposition des échantillons pour engager des processus de vente parfois conséquents, d’après le CTO.
Près de 140 entreprises vendent ou partagent des data sets à travers la marketplace de Databricks. À titre de comparaison, 500 acteurs s’appuient sur celle de Snowflake, tandis que 350 « providers » passent par AWS Data Exchange. Un bon nombre d’entre eux exploitent plusieurs plateformes.
Delta Sharing : Databricks s’entoure de poids lourds du marché
Pour combler son retard, Databricks poursuit ses efforts en vue de renforcer l’intérêt Delta Sharing, son protocole de partage de données open source.
Récemment, Oracle a annoncé prendre en charge Delta Sharing afin de permettre à ses clients de partager des tables depuis Autonomous Data Warehouse. Databricks peut également compter sur le soutien de Dell, Twilio et Cloudflare.
Pour rappel, Delta Sharing permet de partager le contenu de tables Delta Lake (des fichiers Parquet stockés dans des objets S3) via un serveur de partage et une API REST. Databricks dispose de connecteurs vers PowerBI, Apache Spark, Pandas DataFrame, MLflow, Arcuate, et prend en charge les langages SQL, node.js, Java, Python, Scala, C++, Go, R, et Rust. Des intégrations avec Excel, Lakehouse sharing, Airflow et Google Spreadsheet sont en préparation.
« Environ 6 000 clients différents utilisent ou ont utilisé le protocole Delta Sharing », estime Matei Zaharia.
Lors de la présentation de ses résultats financiers du premier trimestre fiscal 2024 le 24 mai dernier, Snowflake estimait qu’approximativement 25 % de ses 8 167 clients maintiennent « au moins » un lien de partage de données (l’équivalent de 20 transactions entre un fournisseur et un consommateur pendant trois semaines). Cela représente un peu plus de 2 000 organisations.
Le CTO défend le fait que les solutions concurrentes, plus particulièrement celles de Snowflake et de BigQuery, ne sont pas interopérables avec d’autres plateformes de données. Pour autant, tout comme Oracle, Databricks offre des fonctionnalités spécifiques de partage entre les instances de sa plateforme, notamment l’échange de notebooks.