BI : l’intégration de données, perturbée par le temps réel et le Big Data

Nos partenaires de Searchdatamanagement attirent notre attention sur la montée en puissance du temps réel dans les solutions d’intégration de données, quitte parfois à effacer d’un revers de la main l’ETL, plus classique. Deux environnements différents et plus qu’une rivalité, s’accordent à dire les analystes.

Les systèmes de BI et les entrepôts de données associés ne valent rien sans les données qui y sont injectées. Ainsi, si la phase d’intégration de données, liées à la BI, n’est pas réalisée correctement, les utilisateurs finaux, tout comme l’entreprise globale, risquent de ne pas trouver satisfaction.

Ce constat est notamment réalisé par Ted Friedman, spécialiste en data management au sein du cabinet d’analyste Gartner. Selon lui, avec l’omniprésence grandissante des outils décisionnels dans les entreprises, placés au coeur des opérations, il est capital d’avoir en place un processus d’intégration de données de BI, bien conçu et bien exécuté.

Gartner considère les enjeux liés à l’intégration de données orientée BI comme une avancée vers la réussite de projets décisionnels et analytiques... mais également comme la plus importante cause de leur échec, purement et simplement.

«Alors que les données auxquelles les entreprises sont aujourd’hui confrontées gagnent en complexité, de par la multiplication des formats et des sources - sans compter le très tendance Big Data - , un grande partie du temps est dédié à harmoniser, nettoyer et préparer les données pour les applications de BI», affirme-t-il. Une tâche particulièrement ardue si vous ajoutez dans l’équation les systèmes dits legacy, plus anciens, au sein desquels la première étape consiste parfois à fouiller en profondeur pour interpréter les données.» Un autre facteur, qui complique l’équation, est la mutation rapide des technologies d’intégration de données. A un rythme effréné qui suit celui des entreprises : celles-ci souhaitent désormais disposer d’accès quasi-instantanés aux données de BI.


L’ETL est-il pertinent pour l’intégration des données liées à la BI ?

Généralement, la technologie moteur dans l’intégration de données décisionnelles est l’ETL (Extract, transform ans load) qui pousse les données depuis leurs sources via des processus en mode batch. Friedman souligne que les méthodes d’intégration, plus récentes, garantissent moins de latence que les outils d’ETL. Par exemple, les applications de capture de données de modification (Change Data Capture - CDC ) et d’autres outils d’intégration de données en temps réel permettent de pousser de l’information mise à jour et modifiée vers l’entrepôt de données et les systèmes de BI en temps réel  - ou quasi-temps réel -. Ce qui peut être utile pour la détection de fraudes, par exemple. «Il s’agit d’un mécanisme de streaming de données, plus granulaire que l’intégration en mode batch de volumineux paquets de données  - ce que fait l’ETL», ajoute-t-il.

Autre option, l’approche fédérée et virtualisée de l’intégration de données. Ce concept permet de ne pas déplacer les données loin de leur source, mais créée à l’opposé des vues consolidées des données depuis de multiples sources, pour un usage décisionnel. Avec les outils de virtualisation de données, la donnée intégrée n’est plus considérée comme persistante» commente Friedman. Vous la capturez en temps réel et elle apparait comme s’il existait quelque part, dans un simple duo base de données / application.»

En dépit de l’émergence de cette nouvelle vague d’outils d’intégration de données, Friedman croit qu’il serait erroné de considérer les outils d’ELT comme obsolètes. «L’ETL est encore pertinent, affirme-t-il. Nous pensons que les mécanismes de l’ETL auront toujours un rôle à jouer car toutes les données n’ont pas besoin d’être diffusées en temps réel.»

En fait, Friedman tire ici une sonnette d’alarme, en direction des entreprises, les alertant sur le fait que les éditeurs d’outils d’intégration de données mettent en avant ces options temps-réel, certes très attirantes. Mais pour de nombreuses entreprises, le traitement par batch suffit. «L’intégration en temps réel coûte de l’argent et nécessite une modification des processus de l’entreprise, il est nécessaire d’avoir un solide cas d’usage», commente-t-il.

«L’ETL a encore sa place. C’est la rampe de lancement de l’intégration de données, rappelle Claudia Imhoff, présidente de Intelligent Solutions, une société de conseil. Toutefois, elle note que les dernières solutions, concurrentes, peuvent être plus flexibles et rapides à déployer et sont plus performantes pour diffuser des données au bon moment aux utilisateurs métiers, qui ont accès aux applications de BI opérationnelles.

Le temps réel n’est pas toujours pertinent, mais colle davantage à la réalité

Bien qu’il reconnaisse que l’intégration de données en temps réel ne soit généralement pas nécessaire ou souhaitable, Barry Devlin, fondateur de 9sight Consulting, un cabinet sud africain, souligne toutefois que les applications de BI et d’analytique tendent à prendre cette orientation.

A titre d’exemple, Devlin cite l’industrie des assurances aux Etats-Unis, où les données des véhicules - comme le freinage et la vitesse, le temps de conduite, notamment - sont transmises en temps réel aux utilisateurs métier des compagnies d’assurance via les réseaux cellulaires afin de permettre aux assureurs de modifier les primes d’assurances ou encore de consentir des rabais, et ce à la volée.

Comme l’indique Friedman, la tendance qui consiste à capturer et analyser les big data, comme les logs de serveurs Web, les données issues des média sociaux et toute forme de données non structurées, ajoute une autre couche de complexité aux processus d’intégration de données dans les systèmes de BI.

Traduit et adapté par la rédaction

Pour approfondir sur Outils décisionnels et analytiques