Intégrations de données : les clés pour comprendre le « nouveau monde »

Introduction

Comme le rappelle Benoît Cayla, auteur du « guide de survie dans le monde de la donnée », l’intégration de données regroupe trois pratiques connexes : la diffusion, la migration et la synchronisation de données.

Il y a ensuite un vaste choix des méthodes et des armes suivant le contexte, l’existant, les technologies mises en place. API, architecture PUB/SUB, ETL, connexions point à point, etc. Peu importe la méthode, les entreprises cherchent in fine à faire communiquer des silos de données, insiste Frédéric Pozzi, vice-président chez MuleSoft France.

Ce guide essentiel laisse de côté les intégrations applicatives pour se concentrer sur l’un des aspects clés en entreprise : l’intégration de données à des fins analytiques.

Pour ce faire, les entreprises ont longtemps traité les données en lot (batch) à l’aide d’outil comme les ETL (Extract, Transform, Load) de manière centralisée. Considérées comme chères, difficiles à maintenir et peu compatibles avec les systèmes applicatifs modernes, les plateformes historiques sont peu à peu remplacées par des outils tactiques. Ils ne les remplacent pas partout. Pas tout le temps. En sus des difficultés sempiternelles du rafraîchissement des données au moment de livrer les rapports hebdomadaires, ces briques doivent répondre aux défis de l’analytique avancée, du machine learning, voire – pour les plus téméraires – du deep learning.

Des acteurs comme Fivetran ou Stitch (Talend) tentent de mettre les produits ELT/ELT dans les mains des utilisateurs moins experts, voire les métiers. DBT, Matillion, Apache Airflow, eux, sont les outils de plus en plus populaires des data engineers. Cette prolifération induit le besoin d’une certaine maîtrise pour éviter le shadow IT, gérer les processus métier associés et superviser les intégrations. D’où le croisement des approches Data Mesh et DataOps.

Un Data Mesh (un maillage de données) est souvent présenté comme une architecture décentralisée, distribuée. C’est une description parcellaire : le data mesh dépend d’une organisation distribuée. En clair, cette approche revient à s’assurer que les propriétaires des silos sont en pleine maîtrise de leurs données, mais que ces silos sont plus facilement accessibles au reste de l’entreprise.

D’où l’idée pour certains d’imposer une approche dite « zero ETL ». En réalité, la méthodologie ETL/ELT demeure, mais les processus sont plus intégrés. Par exemple, à travers la virtualisation de données, Denodo propose de se connecter aux sources de données les plus courantes (des bases de données et des entrepôts majoritairement) pour manipuler des vues de données qui seront sélectionnées à des fins analytiques. Dremio ou Starburst misent sur la fédération de requêtes. Il s’agit de cibler les systèmes sources, pour exécuter des requêtes, in situ ou non, et renvoyer les résultats dans un data warehouse, un lakehouse ou encore le serveur d’un outil BI. Microsoft, Snowflake , Google Cloud ou AWS proposent la même chose pour leurs propres systèmes ou pour ceux qui s’appuient sur leurs briques élémentaires, souvent un service de stockage objet. Salesforce, Tableau, SAP prennent la même direction.

Au-delà des flux de données, les experts du domaine encouragent l’adoption dans l’entreprise d’une approche holistique du data management. C’est le fameux DataOps. La maîtrise des intégrations, des pipelines de données, des transformations, de leur sécurité, est l’une des premières étapes de cette approche visant à renforcer la gouvernance et la qualité des données.

Ce sont ces aspects que ce guide essentiel met en lumière en évoquant les évolutions des ETL/ELT, la grande tendance de la fédération de requêtes, des conseils pour comprendre les approches de contrôle des flux de données et des cas d’usage en place dans les petites et grandes entreprises.

1Modernisation-

L’ELT s’impose

Conseils IT

ELT : l’essentiel sur Rivery

Rivery entend bien se faire une place sur le marché de l’ELT/ETL en mettant avant son modèle économique, ses kits d’intégration précâblés ainsi que la modularité de sa plateforme SaaS. Lire la suite

Conseils IT

Fivetran, l’intégration de données façon ELT

Fivetran est une startup californienne basée à Oakland. Elle édite un ELT managé dans le cloud apprécié dans le domaine de l’analyse marketing. La licorne compte bien se faire connaître auprès des grands comptes et des entreprises européennes. Lire la suite

Conseils IT

Intégration de données : l’essentiel sur StreamSets

Filiale de Software AG, StreamSets s’est récemment installée en France. Elle propose une plateforme DataOps consacrée à l’orchestration des intégrations de données multicloud et hybride. Lire la suite

Actualités

Informatica se met à l’intégration de données « low-cost »

Informatica propose de nouveaux outils gratuits et peu coûteux qui ne nécessitent que peu ou pas de code. S’il souhaite simplifier l’accès des données aux métiers, c’est aussi un moyen de faire d’eux de précieux alliés pour aller convaincre les directions d’adopter sa suite de produits. Lire la suite

2Tendance-

Fédérer et accélérer les requêtes

Conseils IT

Intégration de données : quatre tendances émergentes à évaluer

Selon Forrester, pour accroître leurs performances en matière d’intégration des données, les entreprises doivent évaluer ces quatre technologies d’intégration de données. Lire la suite

Actualités

Dremio veut traiter les données comme du code

En sus de son lakehouse open source, la startup Dremio développe Arctic, une surcouche pour reproduire les fonctions des dépôts Git à partir des projets open source Nessie, Apache Iceberg et Delta Lake. Lire la suite

Actualités

Starburst se concentre sur la découvrabilité des données

Starburst a dévoilé mercredi un trio de nouvelles fonctionnalités pour sa plateforme de gestion et d’analyse des données visant à améliorer la découverte des jeux de données, leur indexation et leur mise en cache. Lire la suite

3Conseils-

Orchestrer les flux de données, comment faire ?

Conseils IT

Les cinq piliers de l’observabilité des données

L’observabilité des données doit assurer une surveillance holistique des pipelines de données d’une organisation. Voici les cinq piliers de cette pratique devant garantir, in fine, l’efficacité et la précision des traitements de données. Lire la suite

Conseils IT

Gestion de flux de données : une introduction à Apache Airflow

Cette introduction à Apache Airflow passe en revue certaines des bases de l’outil de gestion de flux de travail – des étapes d’installation aux différentes options de l’interface graphique en passant par quelques conseils pour l’utiliser au quotidien. Lire la suite

Conseils IT

Comment constituer la bonne équipe DataOps

Nombreuses sont les entreprises à se tourner vers le DataOps pour tirer le meilleur parti de la gestion des données. Découvrez comment vous entourer de la bonne équipe pour garantir le succès d’une approche DataOps. Lire la suite

4Réalité-

Retours d’expérience

Projets IT

Pour Suez, la virtualisation de données coule de source

En pleine restructuration, le « nouveau Suez » s’appuie sur la virtualisation de données pour alimenter au quotidien ses rapports BI. La solution choisie, celle de Denodo, pourrait faciliter la gouvernance des données métier dans un groupe constitué d’entités majoritairement autonomes. Lire la suite

Projets IT

Comment BlaBlaCar conduit l’ingestion de ses données marketing

La configuration des API freinait les opérations analytiques de BlaBlaCar. Le département Data a trouvé chez Rivery les moyens d’automatiser l’ingestion de ses données marketing. Lire la suite

Projets IT

En choisissant son ELT, Phenix n'a pas gaspillé son temps

La startup anti-gaspi Phenix entend profiter de sa manne d’informations sur les invendus de ses clients pour en extraire davantage d’indicateurs et ainsi réduire toujours plus le gaspillage alimentaire dans les grandes enseignes. Mais avant cela, il lui faut bâtir son architecture de données, ce qui demande de tirer des flux ETL/ELT vers son datawarehouse cloud. La société française a fait le choix de Fivetran et de son ELT managé. Lire la suite

Projets IT

Novartis unifie ses données et ses pratiques analytiques

Le groupe pharmaceutique suisse mise pleinement sur les données et la data science. Une stratégie qui l’amène à combiner les infrastructures, les outils et les informations, pour déployer un framework analytique à l’échelle de l’entreprise. Lire la suite

5Glossaire-

Quelques définitions

Streaming des données (architecture de streaming des données)

ETL (et ELT)