1STunningART - stock.adobe.com
Databricks muscle l’ingestion de données vers Delta Lake
Databricks, éditeur d’une plateforme de Data Science, a présenté deux nouveautés peu surprenantes au regard de sa feuille de route : le concept de Lakehouse et deux nouveaux moyens d’ingérer des données dans les tables de streaming.
Maintenant valorisé 6 milliards de dollars, Databricks a réaffirmé sa volonté de combiner Data Lake et Data warehouse au sein d’une même plateforme.
Il faut surtout retenir la disponibilité prochaine d’une nouvelle méthode d’ingestion de données, accompagnée d’un écosystème de partenariats – le Data Ingestion Network – placés sous la bannière Databricks Ingest.
Databricks Ingest vise à automatiser l’ingestion de nouvelles données, aux formats variés (JSON, text, csv, parquet, etc.), hébergées sur le cloud au sein de Delta Lake, la couche de stockage « ++ » open source de Databricks. Pour ce faire, l’éditeur introduit le mécanisme Auto Loader. Il fournit une source de streaming structurée appelée cloudFiles (un fichier de configuration au format JSON) liés à Apache Spark (pour rappel, Databricks est à l’origine de Spark). « Une fois un chemin d’accès vers le système de stockage cloud indiqué, cloudFiles met automatiquement en place des services de notification qui s’abonnent au fil d’événements du répertoire d’entrée et traite les nouveaux fichiers à mesure qu’ils arrivent », précise la documentation de Databricks. Il est également possible de l’utiliser pour des fichiers existants.
Auto Loader, un mécanisme d’automatisation de l’ingestion de données
Pour l’instant disponible en préversion publique pour AWS S3 et Azure Storage Data Lake Storage (Gen1/Gen2), Auto Loader doit simplifier, fluidifier l’ingestion de données brutes. Cette brique renforce également le suivi de nouveaux fichiers au sein de Delta Lake. Chez AWS, cela passe par les services de notifications de messages AWS SNS et SQS. Chez Azure, les équivalents se nomment Azure Event Grid et Azure Queue Storage. Les listes de fichiers sont stockées dans la base de données key/value store RockDB. De plus, cloudFiles crée automatiquement les pipelines de notifications pour ces services. Seulement deux variables sont à spécifier dans la source cloudFiles : le chemin d’accès aux services de stockage cloud et la région d’hébergement. Cette technique permettrait de gérer plusieurs millions de fichiers, selon Databricks.
Auto Loader peut être paramétré pour ingérer les données en temps réel ou en batch. Il est possible de planifier les ingestions à l’aide de la COPY Command, une commande SQL. Celle-ci doit aussi réduire les problèmes de duplication au sein des jeux de données.
Pour les données en provenance de systèmes d’éditeurs tiers comme Salesforce, SAP HANA ou Marketo, Databricks a lancé Data Ingestion Network, un programme de partenariats avec des éditeurs comme Qlik, Infoworks, Fivetran, Azure Data Factory, StreamSets et Syncsort. Databricks cherche à rallier d’autres partenaires comme Informatica, Segment ou encore Talend. Dans cette optique, ce sont ces éditeurs qui se chargent de migrer les données en provenance des CRM, des ERP, des bases de données, ou tous autres systèmes avec leurs connecteurs. Les tables devront être lisibles au format open source développé par Databricks : Apache Parquet.
« Ce partenariat s’adresse à des clients qui veulent exploiter une table, faire des jointures de tables ou apporter un flux de données, particuliers. Une fois qu’ils ont choisi, ils peuvent pointer vers des tables Delta Lake et les données vont alimenter leur Data Lake », simplifie Bharath Gowda, vice-président marketing produits chez Databricks.
Dans son Magic Quadrant 2020 dédié aux plateformes de Data Science, Gartner note que les solutions de Databricks, Delta Lake et MLflow, un environnement de conception et de mise en production d’algorithmes, sont dépendantes d’Apache Spark. Le cabinet remarque également que les clients qui utilisent déjà la couche de traitement de flux de données sont plus enclins à se tourner vers l’éditeur. Le nouvel écosystème de partenaires vient sans doute à combler cette lacune.
Lakehouse : Databricks pose la carte marketing
Ces processus d’ingestion visent à renforcer la pertinence de Delta Lake en tant que couche de stockage et de gestion des données par-dessus les services de stockage objets comme AWS S3 ou Azure Storage Blob. Il s’agit de concevoir des lacs de données dotés de capacités de data warehouse. L’éditeur nomme maintenant ce concept Lakehouse. Techniquement, rien ne change, Delta Lake reste cette plateforme qui ajoute des fonctionnalités ACID au sein d’un lac de données.
« Ce que nous allons appelons un Lakehouse n’est pas un produit, mais un paradigme de gestion que nous voyons apparaître sur le marché et chez nos clients », avance Bharath Gowda. « Nous voyons une forme de convergence dans le sens où les lacs de données disposent de plus en plus de fonctionnalités de data warehouse, ce qui vous permet de vous appuyer sur des données semi-structurées et donc faciliter les projets de Data Science ».
Bharath GowdaVice-président marketing produits, Databricks
« Le nommage est une bizarrerie du secteur technologique. Les éditeurs veulent trouver de nouveaux noms et qu’ils soient associés à leur marque », déclare David Menninger, analyste chez Ventana Research. « Peu importe l’appellation, le concept est correct : nous assistons à une fusion des entrepôts et des lacs de données », confirme-t-il.
Le vice-président marketing produits assure que le nom a été trouvé auprès des clients après qu’ils aient exprimé le besoin correspondant à ce « paradigme ».
La Data Science comme billet d’entrée chez les clients
Gartner explique que l’éditeur est devenu un des leaders cette année parce qu’il a prouvé qu’il était capable de fournir une plateforme de bout en bout. Néanmoins, Databricks ne communique pas sur la portion d’utilisateurs qui emploient à la fois Delta Lake et MLflow. Difficile donc de déterminer les avancées des 4 000 clients de l’éditeur en matière de Data Science. Déploient-ils la solution pour moderniser leurs pratiques BI ou adoptent-ils vraiment la plateforme pour industrialiser leurs projets d’analytique avancée, de machine learning et d’intelligence artificielle ?
« Aujourd’hui, les clients utilisent une combinaison de solutions, mais nous ne communiquons pas sur le fait de savoir s’ils utilisent Delta Lake avec MLflow. Nous détaillons pour l’instant le nombre de téléchargements des projets open source Delta Lake et MLflow », explique Bharath Gowda. « Delta Lake devient de plus en plus le standard pour renforcer les transactions ACID au sein des data lakes. MLflow rencontre un bon accueil, car il permet d’unifier le suivi et de faciliter la réutilisation des modèles algorithmiques », ajoute-t-il.
« Nous sommes concentrés sur le succès de nos clients. Nous croyons fermement que si nous pouvons les aider à déployer les premiers cas d’usage en data science, ils utiliseront notre plateforme pour d’autres types de cas d’usage, pour répondre à leurs problématiques plus générales en termes de traitement de données », conclut-il.