agsandrew - Fotolia
Plateforme d’intégration de données : aller au-delà de l’ETL
Les solutions d’intégration de données ont la capacité de simplifier les processus des entreprises, dans un contexte marqué par une hausse croissante du volume des données. Cet article explique comment s’y retrouver sur le marché.
Que ce soit l’impact du Big Data en entreprise ou encore la montée en puissance du Cloud sur les applications, il existe une fondation commune : la demande croissance en matière de données. Et plus précisément, la demande de données intégrées et traduites pour s’adapter au contexte métier. Cette demande rend d’autant plus importantes les solutions d’intégration de données, qui étaient déjà clé dans les entrepôts de données.
L’intégration de données implique de collecter des données, généralement issues de sources multiples, et de les transformer en informations utiles pour les métiers et les analystes, par exemple. Avec la volonté affirmée des entreprises de partager leurs données, les plateformes d’intégration peuvent contribuer à gérer et simplifier les processus.
Les plateformes d’intégration de données : qu’est-ce que c’est ?
Ces plateformes comprennent d’abord des outils ETL (extract, transform et load) dont la mission est d’automatiser les tâches d’extraction des données multi-source, leur conversion dans des formats adaptés et leur chargement dans des entrepôts de données ou autres bases de données. La première génération d’ETL étaient essentiellement de simples, mais couteux, outils de génération de code aux fonctionnalités limitées. D’ailleurs de nombreuses entreprises estimaient qu’il était bien plus efficace de développer leur propre technologie. La seconde génération, quant à elle, était plus fournie d’un point de vue fonctionnel, mais était centrée sur les traitements par lot, sans trop de performances. Du coup, les DSI pensaient que les ETL ne valaient pas le coup, si les performances n’étaient pas au rendez-vous.
Avec le temps, les outils d’ETL ont évolué et ont élargi leurs champs fonctionnels, en matière de développement, de traitement et de possibilités d’intégration. Pour mieux les positionner comme de véritables plateformes de développement, les fournisseurs d’ETL ont équipé leurs outils de gestion de code, de versioning et génération de documentation et de debugging, par exemple.
Avec l’avancée de l’industrie sur le sujet et sa maturité en matière d’intégration de données, des bonnes pratiques ont pu se dégager, se développer et ont été ajoutées aux outils d’ETL en tant que fonctions pré-intégrées. Ces fonctions portent sur la capture des modifications de données, la gestion de la hiérarchie, la connectivité aux données et la vérification de l’intégrité, par exemple. Les performances se sont aussi améliorées grâce à l’usage de la mémoire et du parallélisme.
Des variantes aux ETL se sont aussi mises en place. On parle d’ELT (pour Extract, Load and Transform). Avec ces outils, il n’est plus nécessaire d’avoir un serveur dédié aux fonctions d’ETL. Ils peuvent être déployés à la source des données ou sur des systèmes cibles, selon leur configuration. L’approche ELT permet donc aux utilisateurs de stocker les données brutes en l’état, de les transformer, dans leur totalité ou partiellement, pour les applications de BI ou analytiques, en fonction des besoins spécifiques.
L’ETL évolue dans les plateformes d’intégration
L’intégration de données doit aussi s’étendre au-delà des simples opérations d’ETL et proposer aujourd’hui d’autres fonctions :
- L’intégration B2B
- L’intégration Cloud
- L’intégration de processus applicatifs et métiers
- La migration de données
- La consolidation des données
- Le nettoyage et la qualité des données
- Le MDM (Master Data Management)
Avec cette approche, d’autres catégories d’outils d’intégration sont alors apparues, avec pour chacun, des tâches spécifiques :
- EAI (Enterprise Application Integration). Aussi simplement qualifiée d’intégration d’application, cette sous-catégorie, qui favorise l’interopérabilité entre plusieurs applications, est accessible via le Web ou des services de données, sur une architecture SOA ou des standards de l’industrie comme EDI. Un ESB (Bus d’entreprise) est généralement un support pour implémenter des fonctions d’EAI.
- EMS (Enterprise Messaging System). Cette technologie se cantonne à des fonctions de messaging entre des applications disparates en se reposant sur des formats structurés comme XML ou JSON. Les outils d’EMS proposent des services d’intégration légers qui peuvent alimenter les systèmes de mises à jour en temps réel des données multi-sources.
- EII (Enterprise Information Integration). EII, que l’on connait à l’origine associé au concept de fédération de données, propose une vue unifiée de sources de données disparates, mais avec des capacités d’intégration limitées. Aujourd’hui connue sous le concept de virtualisation de données, cette technologie offre à la fois une couche d’abstraction de données et de services de données, tant structurées, semi-structurées que non structurées.
- L’intégration Cloud - aussi iPaas (Integration platform-as-a-service). Cette technologie permet de mettre en place l’interopérabilité temps réel entre des applications Cloud et des bases de données. Ces outils sont déployés en tant que services Cloud et se reposent sur des fonctions d’EAI et d’EMS.
Enfin, certains fournisseurs assemblent chacune des pièces du puzzle et proposent des suites d’intégration de données avec des fonctions d’ETL, d’intégration d’applications, Cloud, en temps réel, des outils de virtualisation de données, de nettoyage de données et profilage. Ces suites supportent l’approche classique en mode batch, ou en temps réel via des services Web. Les données tant sur site que dans le Cloud peuvent être prises en compte, structurées et non structurées.
Démystifier les outils d’intégration de données
Bien utilisées, ces plateformes d’intégration de données améliorent la productivité des utilisateurs et apporte de la flexibilité et des capacités d’extension par rapport au développement manuel. Toutefois, dans la réalité, coder à la main, que ce soit pour des scripts SQL ou des simples macros, est encore très répandu dans les entreprises.
Les DSI avancent plusieurs arguments pour justifier le recours à la programmation manuelle plutôt qu’aux plateformes d’intégration de données. Toutefois, cela repose sur des mythes ou des fausses idées :
- Les outils d’intégration sont trop chers. Depuis les premiers jours de l’ETL, il existe la perception qu’il ne s’agit que d’une technologie couteuse. Mais on trouve aujourd’hui sur le marché des plateformes d’intégration de données adaptées aux petits budgets.
- La nécessité de disposer de compétences expérimentées. Une autre fausse idée est que les entreprises ont besoin de développeurs expérimentés en outils ETL legacy.
Le marché des plateformes d’intégration
S’il existe nombre de plateformes disponibles sur le marché, il n’en demeure pas moins qu’IBM, Informatica, Information Builders, Microsoft et Oracle forment le top 5 du segment. Pentaho, SAP, SAS et Talend font aussi partie des principaux acteurs de ce marché.
Tous ces fournisseurs commercialisent des solutions d’intégration de données sur site mais capables d’intégrer des données tant sur site que dans le Cloud. Pentaho et Talend proposent des outils Open Source, associés à des offres de support payantes. Dans son approche, Microsoft se distingue par le fait qu’il est le seul à packager son outil d’intégration de données à sa base de données – au lieu de vendre les deux séparément.
L’intégration de données continue d’être avant tout une opération IT, reposant sur de la donnée et des technologies de base de données – et donc des compétences associées. Généralement, ces plateformes sont achetées, gérées et exploitées par les équipes IT en charge de la BI, des entrepôts de donnée, du MDM et de toutes les activités de gestion des données. Ces équipes doivent donc avoir les compétences adéquates. Certaines entreprises, qui ont par exemple des problématiques d’intégration de données différentes en fonction des départements, ont créé des centres de compétences pour gérer leurs outils d’intégration. Cette démarche permet de centraliser les opérations et éviter les silos.
Traduit et adapté par la rédaction