Intégrations de données : les clés pour comprendre le « nouveau monde »
Introduction
Comme le rappelle Benoît Cayla, auteur du « guide de survie dans le monde de la donnée », l’intégration de données regroupe trois pratiques connexes : la diffusion, la migration et la synchronisation de données.
Il y a ensuite un vaste choix des méthodes et des armes suivant le contexte, l’existant, les technologies mises en place. API, architecture PUB/SUB, ETL, connexions point à point, etc. Peu importe la méthode, les entreprises cherchent in fine à faire communiquer des silos de données, insiste Frédéric Pozzi, vice-président chez MuleSoft France.
Ce guide essentiel laisse de côté les intégrations applicatives pour se concentrer sur l’un des aspects clés en entreprise : l’intégration de données à des fins analytiques.
Pour ce faire, les entreprises ont longtemps traité les données en lot (batch) à l’aide d’outil comme les ETL (Extract, Transform, Load) de manière centralisée. Considérées comme chères, difficiles à maintenir et peu compatibles avec les systèmes applicatifs modernes, les plateformes historiques sont peu à peu remplacées par des outils tactiques. Ils ne les remplacent pas partout. Pas tout le temps. En sus des difficultés sempiternelles du rafraîchissement des données au moment de livrer les rapports hebdomadaires, ces briques doivent répondre aux défis de l’analytique avancée, du machine learning, voire – pour les plus téméraires – du deep learning.
Des acteurs comme Fivetran ou Stitch (Talend) tentent de mettre les produits ELT/ELT dans les mains des utilisateurs moins experts, voire les métiers. DBT, Matillion, Apache Airflow, eux, sont les outils de plus en plus populaires des data engineers. Cette prolifération induit le besoin d’une certaine maîtrise pour éviter le shadow IT, gérer les processus métier associés et superviser les intégrations. D’où le croisement des approches Data Mesh et DataOps.
Un Data Mesh (un maillage de données) est souvent présenté comme une architecture décentralisée, distribuée. C’est une description parcellaire : le data mesh dépend d’une organisation distribuée. En clair, cette approche revient à s’assurer que les propriétaires des silos sont en pleine maîtrise de leurs données, mais que ces silos sont plus facilement accessibles au reste de l’entreprise.
D’où l’idée pour certains d’imposer une approche dite « zero ETL ». En réalité, la méthodologie ETL/ELT demeure, mais les processus sont plus intégrés. Par exemple, à travers la virtualisation de données, Denodo propose de se connecter aux sources de données les plus courantes (des bases de données et des entrepôts majoritairement) pour manipuler des vues de données qui seront sélectionnées à des fins analytiques. Dremio ou Starburst misent sur la fédération de requêtes. Il s’agit de cibler les systèmes sources, pour exécuter des requêtes, in situ ou non, et renvoyer les résultats dans un data warehouse, un lakehouse ou encore le serveur d’un outil BI. Microsoft, Snowflake, Google Cloud ou AWS proposent la même chose pour leurs propres systèmes ou pour ceux qui s’appuient sur leurs briques élémentaires, souvent un service de stockage objet. Salesforce, Tableau, SAP prennent la même direction.
Au-delà des flux de données, les experts du domaine encouragent l’adoption dans l’entreprise d’une approche holistique du data management. C’est le fameux DataOps. La maîtrise des intégrations, des pipelines de données, des transformations, de leur sécurité, est l’une des premières étapes de cette approche visant à renforcer la gouvernance et la qualité des données.
Ce sont ces aspects que ce guide essentiel met en lumière en évoquant les évolutions des ETL/ELT, la grande tendance de la fédération de requêtes, des conseils pour comprendre les approches de contrôle des flux de données et des cas d’usage en place dans les petites et grandes entreprises.
1Modernisation-
L’ELT s’impose
ELT : l’essentiel sur Rivery
Rivery entend bien se faire une place sur le marché de l’ELT/ETL en mettant avant son modèle économique, ses kits d’intégration précâblés ainsi que la modularité de sa plateforme SaaS. Lire la suite
Fivetran, l’intégration de données façon ELT
Fivetran est une startup californienne basée à Oakland. Elle édite un ELT managé dans le cloud apprécié dans le domaine de l’analyse marketing. La licorne compte bien se faire connaître auprès des grands comptes et des entreprises européennes. Lire la suite
Intégration de données : l’essentiel sur StreamSets
Filiale de Software AG, StreamSets s’est récemment installée en France. Elle propose une plateforme DataOps consacrée à l’orchestration des intégrations de données multicloud et hybride. Lire la suite
Informatica se met à l’intégration de données « low-cost »
Informatica propose de nouveaux outils gratuits et peu coûteux qui ne nécessitent que peu ou pas de code. S’il souhaite simplifier l’accès des données aux métiers, c’est aussi un moyen de faire d’eux de précieux alliés pour aller convaincre les directions d’adopter sa suite de produits. Lire la suite
2Tendance-
Fédérer et accélérer les requêtes
Intégration de données : quatre tendances émergentes à évaluer
Selon Forrester, pour accroître leurs performances en matière d’intégration des données, les entreprises doivent évaluer ces quatre technologies d’intégration de données. Lire la suite
Dremio veut traiter les données comme du code
En sus de son lakehouse open source, la startup Dremio développe Arctic, une surcouche pour reproduire les fonctions des dépôts Git à partir des projets open source Nessie, Apache Iceberg et Delta Lake. Lire la suite
Starburst se concentre sur la découvrabilité des données
Starburst a dévoilé mercredi un trio de nouvelles fonctionnalités pour sa plateforme de gestion et d’analyse des données visant à améliorer la découverte des jeux de données, leur indexation et leur mise en cache. Lire la suite
3Conseils-
Orchestrer les flux de données, comment faire ?
Les cinq piliers de l’observabilité des données
L’observabilité des données doit assurer une surveillance holistique des pipelines de données d’une organisation. Voici les cinq piliers de cette pratique devant garantir, in fine, l’efficacité et la précision des traitements de données. Lire la suite
Gestion de flux de données : une introduction à Apache Airflow
Cette introduction à Apache Airflow passe en revue certaines des bases de l’outil de gestion de flux de travail – des étapes d’installation aux différentes options de l’interface graphique en passant par quelques conseils pour l’utiliser au quotidien. Lire la suite
Comment constituer la bonne équipe DataOps
Nombreuses sont les entreprises à se tourner vers le DataOps pour tirer le meilleur parti de la gestion des données. Découvrez comment vous entourer de la bonne équipe pour garantir le succès d’une approche DataOps. Lire la suite
4Réalité-
Retours d’expérience
Pour Suez, la virtualisation de données coule de source
En pleine restructuration, le « nouveau Suez » s’appuie sur la virtualisation de données pour alimenter au quotidien ses rapports BI. La solution choisie, celle de Denodo, pourrait faciliter la gouvernance des données métier dans un groupe constitué d’entités majoritairement autonomes. Lire la suite
Comment BlaBlaCar conduit l’ingestion de ses données marketing
La configuration des API freinait les opérations analytiques de BlaBlaCar. Le département Data a trouvé chez Rivery les moyens d’automatiser l’ingestion de ses données marketing. Lire la suite
En choisissant son ELT, Phenix n'a pas gaspillé son temps
La startup anti-gaspi Phenix entend profiter de sa manne d’informations sur les invendus de ses clients pour en extraire davantage d’indicateurs et ainsi réduire toujours plus le gaspillage alimentaire dans les grandes enseignes. Mais avant cela, il lui faut bâtir son architecture de données, ce qui demande de tirer des flux ETL/ELT vers son datawarehouse cloud. La société française a fait le choix de Fivetran et de son ELT managé. Lire la suite
Novartis unifie ses données et ses pratiques analytiques
Le groupe pharmaceutique suisse mise pleinement sur les données et la data science. Une stratégie qui l’amène à combiner les infrastructures, les outils et les informations, pour déployer un framework analytique à l’échelle de l’entreprise. Lire la suite