Lakeflow : Databricks veut unifier sa gestion des pipelines de données
Alors que les fonctions d’ingestion, de transformation de données et de gestion des tâches d’ingénierie de données sont séparées au sein de la plateforme, Databricks souhaite les réunir sous la bannière Lakeflow, à la demande de ses clients.
Pour Ali Ghodsi, CEO et cofondateur de Databricks, la priorité des entreprises n’est pas l’IA générative. Le sujet de la sécurité est un combat permanent. Celui de la gouvernance, Databricks pense y avoir trouvé une solution efficace avec Unity Catalog. Mais… non, pour les clients de Databricks l’ingénierie de données est l’enjeu du moment.
« L’ingénierie de données est probablement l’élément qui aura le plus grand impact financier [sur l’activité de Databricks l’année prochaine] », anticipe le dirigeant.
« Il y a deux ans lors d’un forum rassemblant une centaine de DSI, je leur ai demandé ce qu’il manquait dans l’offre de Databricks. La grande majorité d’entre eux ont répondu qu’il fallait faciliter l’ingestion de données ».
Le sujet n’intéressait pas le dirigeant, mais le retour des clients lui a fait changer d’avis. Et c’est cet enjeu des utilisateurs qui aurait motivé l’acquisition d’Arcion pour 100 millions de dollars en octobre 2023.
L’effet Arcion
Arcion est un spécialiste de la réplication de données. Il a développé un système de Change Data Capture automatisé et managé, disponible sur site et dans le cloud pour une vingtaine de middlewares sources et de cibles.
Lors de Data+AI Summit 2024, Databricks a présenté Lakeflow, une solution composée de trois briques : Connect, Pipelines et Orchestrate. Pour l’heure, seul Connect est en préversion privée, les deux autres fonctionnalités arriveront « prochainement », dans les six à douze mois à venir, selon Joel Minnick, vice-président marketing, chez Databricks.
Joel MinnickV-P marketing, Databricks
« Lakeflow offrira aux ingénieurs de données une expérience très cohérente et complète sur toute la plateforme. Cela couvre toutes les étapes, de l’ingestion à la création de pipelines et à l’orchestration. Aujourd’hui, ces fonctions sont réparties entre différents services sur Databricks », affirme-t-il.
Lakeflow Connect est un moyen d’ingérer des données depuis des bases de données comme MySQL, PostgreSQL, SQL Server et Oracle. Databricks promet également des connecteurs vers Salesforce, Microsoft Dynamics, NetSuite, Workday, ServiceNow et Google Analytics.
L’éditeur rappelle qu’il disposait déjà des connecteurs « natifs » vers les services de stockage objet S3, ADLS Gen2, et GSC, ainsi que pour ingérer des données depuis les systèmes orientés événements (Kafka, Kinesis, Event Hub, Pub/Sub). Sans oublier les solutions des partenaires, dont Fivetran, Qlik et Informatica.
Databricks assure par ailleurs qu’il pourra ingérer des données non structurées à travers son connecteur Sharepoint.
Il y a quatre ans, l’éditeur avait mis sur pied la fonction Auto Loader visant à automatiser l’ingestion de données dans sa plateforme. Pour autant, ce mécanisme concerne des données brutes et repose essentiellement sur le concours des outils tiers, ceux nommés ci-dessus, ainsi qu’Azure Data Factory, Rivery ou encore Streamsets (racheté par IBM auprès de Software AG).
Lakeflow Connect ajoute une interface low-code/no-code et glisser-déposer plus familière pour les utilisateurs d’ETL/ELT.
La technologie d’Arcion ajoute par ailleurs un moyen de mettre à jour les données de manière incrémentale, sans avoir à rejouer de gros flux de travail.
Lakeflow Pipelines, lui, doit permettre de simplifier la conception et le déploiement de pipelines de données, batch ou temps réel (via le mode Real Time, issu des versions 3.x d’Apache Spark). Ce mécanisme s’appuie sur Delta Live Tables (DLT), un framework pour concevoir des tuyaux de données de manière déclarative. Les ingénieurs de données peuvent concevoir ces flux en SQL ou en Python. Databricks gère les traitements incrémentaux et l’autoscaling des charges de travail. Selon toute vraisemblance, Pipelines ressemble à un renommage des fonctions autrefois réunies sous l’appellation DLT, maintenant que l’éditeur y ajoute une interface intégrée et des outils de monitoring.
« C’est une évolution de Delta Live Table qui permet d’exprimer les pipelines batch et streaming en SQL. Nous avons fait en sorte que ces pipelines soient incrémentaux et efficients en matière de coût », assure Bilal Aslam, directeur senior de la gestion produit chez Databricks. En clair, Lakeflow Pipelines doit simplifier la création de vues matérialisées, un objet important pour l’éditeur dont le segment warehousing est en pleine croissance.
Le système automatiserait la gestion de l’évolution des schémas, des échecs et du relancement des jobs, mais aussi le choix de la bonne technique de change data capture.
Lakeflow, pour supplanter Airflow
Lakeflow Jobs doit, quant à lui, servir à l’orchestration et la supervision de toutes les charges de travail exécutables depuis la plateforme, dont les pipelines d’ingestion et de transformation de données. Là encore, le système s’appuiera sur un dispositif existant, Databricks Workflows.
« Là encore, nous avons fait évoluer Workflows qui est un orchestrateur exhaustif », déclare Bilal Aslam. « Il n’y a plus besoin d’utiliser [Apache] Airflow, cette fonction est totalement intégrée dans Databricks ».
Bilal AslamDirecteur senior gestion produit, Databricks
Outre les capacités de Workflows, Databricks y ajoute des « triggers », des déclencheurs en français. En clair, il s’agit de paramétrer dans lesquelles un flux de travail ou une charge de travail doit s’enclencher afin de maîtriser les coûts.
Lakeflow Jobs doit permettre également « d’unifier le monitoring » des jobs. « Lakeflow intègre la supervision de la santé des intégrations, de la fraîcheur des données, des coûts, des exécutions et permet de débugger les flux », décrit Bilal Aslam.
Qui plus est, Databricks vante le fait qu’il est possible de tracer et d’auditer ces pipelines d’ingestion à travers sa couche de gouvernance Unity Catalog. Ainsi, il serait possible d’obtenir la traçabilité des données ingérées, des tables fédérées, des tableaux de bord et des modèles d’IA.
Lakeflow fait partie de ces services de Databricks qui seront principalement (voire uniquement) disponibles en mode serverless. « Nous avons effectué des tests pour des tâches de streaming avec DLT. C’est 3,5 fois plus rapide et 30 % moins cher que l’usage d’instances classiques », avance le directeur senior de la gestion produit.
Cerise sur le gâteau, Databricks y intégrera DatabricksIQ, une couche de compréhension sémantique lui permettant d’infuser un assistant propulsé par un LLM dans Lakeflow. Celui-ci devrait aider les utilisateurs à concevoir leurs pipelines et à les débugger.
Ces ajouts n’intéresseront pas forcément tous les clients. Certains d’entre eux préfèrent maîtriser pleinement les pipelines d’ingestion et de transformation de données vers le lakehouse. Pour autant, d’autres entreprises utilisent la plateforme de Databricks comme un outil de transformation de données à large échelle. Pour rappel, l’expertise première de l’éditeur est Apache Spark, un projet lancé par Matei Zaharia, cofondateur et CTO de Databricks. Y ajouter des fonctions d’ingestion et de maîtrise de l’ensemble des flux semble dans tous les cas bienvenu.