Cet article fait partie de notre guide: Guide pratique pour bien choisir son Data Warehouse

Big Data : l’entrepôt de données n’est pas mort

Nos confrères de Searchdatamanagement estiment que l’entrepôt de données a un rôle clé à jouer dans un environnement Big Data et trouve sa place aux côtés des technologies qui aujourd’hui occupent aujourd’hui le haut de l’affiche en matière de données en volume. Une évolution vers un nouveau rôle à jouer.

L’intérêt sans cesse grandissant pour collecter, stocker ou analyser des données en volume (Bg Data) a poussé de nombreux spécialistes du data management à prédire la fin  (demise) prochaine de l’entrepôt de données d’entreprise (Enterprise Data Warehouse - EDW). Cependant, alors que les entreprises s’engouffrent peu à peu dans des déploiements de solutions Big Data, le futur de l’entrepôt de données classique est-il à mettre entre parenthèse ? Non. ‘EDW n’est toujours pas mort.

Sans aucun doute, le flux des «Big Data» - de large volume d’informations structurées et non structurées impliquant généralement différents types de données,ainsi que leur mise à jour - provoquera une modification des stratégies liées aux entrepôts de données. Ces 20 dernières années, les DSI, surtout chez les grands comptes ont entrepris de développer un unique entrepôt de données, faisant office d’une base centralisée pour toutes les données structurées de l’entreprise. Désormais, la validité des cette approche est remise en cause par l’augmentation gigantesque des publications sur les média sociaux et par le déluge des données non transactionnelles issues des différentes sources, tels que les logs des serveurs Web et des applications, des outils de contrôle du réseau ou encore des capteurs.

Le monde traditionnel des bases de données relationnelles, qui forme l’EDW, n’est pas équipé pour supporter le déluge de texte ou d’autres formes de données non structurées. Pour faire face, les responsables des entreprises - souvent hors du contrôle du département IT ou des équipes gérant l’entrepôt de données - ont installé de nouvelles technologies comme Hadoop, MapReduce ou les bases de données NoSQL afin de garder le contrôle sur le volume croissant des données et d’en extraire des analyses prédictives qui puissent apporter un avantage compétitif.

Toutefois, même avec l’émergence de technologies Big Data, en tant qu’alternatives aux systèmes de gestion de bases de données (RDBMS), l’entrepôt de données n’est pas menacé d’extinction, confirment les spécialistes du EDW. En revanche, ils en prédisent une mutation, au fur et à mesure que les entreprises en étendent les fonctions pour prendre en considération ces nouveaux types de données.

«L’entrepôt de données ne va pas disparaitre. - en fait, il a toujours été lui-même considéré comme une vision globale et non comme un fait établi», affirme Mark Beyer, vice président, directeur de recherche pour Information Management, chez Gartner. «Et désormais cette vision globale de l’entrepôt de données évolue pour prendre en compte toutes les informations d’une entreprise. Il passe d’une plate-forme clé au coeur d’une stratégie de repository à une stratégie de plates-formes de services d’informations.»

Beyer et d’autres analystes considèrent davantage une évolution de l’EDW vers une version modifiée, au sein de laquelle les jeux de données structurées et non structurées sont stockés et gérés là où cela est le plus cohérent (notamment avec une architecture étendue et bien coordonnée).

«Nous anticipons une tendance, qui consiste à appliquer la technologie et les disciplines acquises avec les entrepôts de données à des sources de données plus fédérées», explique David Menninger, directeur de recherche de Ventana Research.

Un étude menée l’année dernière par Ventana sur la gestion des Big Data a révélé que dans 89% des cas, les entreprises utilisent des bases de données relationnelles classiques, installées sur du matériel conventionnel pour supporter les traitements de données à grande échelle. 73% affirment également que les bases de données relationnelles sont leur solution principale pilier pour adresser la problématique du Big Data. Toutefois, quelque 93% affirment utiliser ou évaluer d’autres technologies pour gérer le Big Data, souligne Ventana, qui a publié cette étude en janvier.  Cela comprend les fichiers plats (utilisés par 70% des répondants), les appliances de data warehouse (34%), les bases In-Memory (33%), Hadoop (22%) et certaines bases de données analytiques (15%).

«Les scénarii de fédération de données reposaient sur des serveurs distants géographiquement et des instances de bases de données qui formaient un tout cohérent, mais tous basés sur des structures identiques, et tous relationnels», commente Menninger. «Ce qui tend à disparaître est ce concept d’instance unique de RDBMS, qui sert de seul entrepôt de données de l’entreprise. Cela évolue. Les différentes parties de l’architecture ne reposent peut-être pas sur les mêmes technologies mais le principe est de les faire se comporter et agir comme un ensemble de données cohérent.»

Evidemment, la plupart des entreprises n’en sont pas encore là. L’étude Ventana révèle par exemple que 64% des répondants citent, pour évoquer l’un de leurs principales difficultés, le manque d’intégration entre les systèmes Big Data et leurs outils existants de BI ou les data warehouse.

Toutefois les analystes affirment que cette mutation en cours n’est pas si différente de celle opérée au début des années 90, lorsque les enjeux de la consolidation des données à travers l’entreprise étaient placés dans l’EDW, entre les mains de la DSI. Les entreprises essayaient de trouver des synergies entre les différents départements métiers autour de projets d’entrepôt de données, pour à la fois bénéficier de réduction de coûts et encourager la consistance et la ré-utilisation des données, affirme Ralph Kimball, fondateur du Kimball Group, une cabinet de conseil et de formation spécialisé dans l’entrepôt de données. «En fin de compte, cela est tombé entre le mains de quiconque avait un soupçon d’expertise dans les départements end-user. Ce qui ne s’avéra pas être pas une méthode efficace en matière de pérennité ni une stratégie cohérente», ajoute Kimball. Ajoutant que le même scenario pourrait être rejoué avec la montée en puissance des systèmes de Big Data, dont la plupart débute au sein des départements fonctionnels, en dehors du IT.  «Une fois un palier atteint, vous essayez de mener une politique d’unification -- sans contrôle radical du IT toutefois - , mais l’isolement des départements fonctionnels, qui bâtissent leur propre système, doit être rompu. Cela co&uci rc;te tout simplement trop cher.»


Bien que ce processus de rupture n’en soit qu’à ses débuts, des modifications sont déjà intervenues ces 6 derniers mois. La période pendant laquelle la bataille entre les fournisseurs traditionnels de data warehouse et les start-up hadoop où les technologies de Big Data faisait rage, semble désormais être révolue. Les deux camps concentrent désormais leurs efforts à créer des liens entre leurs plates-formes respectives, affirme Colin White, président de BI Research.

Plusieurs fournisseurs offrent déjà des connecteurs pour déplacer des données entre les clusters Hadoop et les bases de données traditionnelles, et ce n’est visiblement qu’un début. Alors que les passerelles d’intégration voient le jour, l’entrepôt de données pourrait se transformer un entrepôt logique capable d’extraire des données dans un environnement multi-systèmes tout en répartissant les traitements vers la meilleure plate-forme, en se basant sur les coûts et sur les performances.

Dans cette même logique, d’autres modèles émergent, comme celui de considérer l’entrepôt de données comme un système hybride qui combine virtuellement les technologies de traitement de données. Par exemple, des utilisateurs métiers d’une entreprise pourraient utiliser Hadoop pour (sift) scruter les données sur le Web afin de trouver l’information pertinente répondant à un besoin métier, entrer ces données dans une base analytique pour effectuer une analyse avancée (heavy-duty). Une fois le traitement analytique réalisé, les résultats agrégés pourraient être placés dans un entrepôt de données et rendu accessible à un plus large groupe d’utilisateurs.

«Essayer de réaliser des traitements analytiques au dessus d’architectures d’entrepôt de données tradtionnelles est (daunting), là où les bases de données analytiques sont performantes», commente Shawn Rogers, vice président de Enterprise Management Associates, spécialisé dans le BI et l’entrepôt de données. «Il est de plus prouvé que les architectures conventionnelles d’entrepôts de données ne peuvent pas traiter une quantité pharaonique d’informations, issues de sources de données comme les réseaux sociaux et les logs, là où ce se complait Hadoop.»

Toutefois, l’entrepôt de données devrait toujours faire partie de l’équation : «il existe une opportunité, ajoute Rodger, pour que chacune des plates-formes ait un rôle unique à jouer.»

Pour approfondir sur Outils décisionnels et analytiques