Big Data : les entrepôts de données n’ont pas dit leur dernier mot
Les clusters Hadoop, les bases de données NoSQL ainsi que d’autres technologies modernes de gestion des données ont un rôle à jouer dans les environnements de BI et analytiques. Y compris les entrepôts de données traditionnels.
Les clusters Hadoop, les bases de données NoSQL ainsi que d’autres technologies modernes de gestion des données ont un rôle à jouer dans les environnements de BI et analytiques. Y compris les entrepôts de données traditionnels.
A l’origine, la vocation de l’entrepôt de données était de séparer les opérations analytiques des transactions mainframe afin d’éviter les ralentissements des temps de réponse et de minimiser les augmentations de coûts CPU, nécessaires pour effectuer des requêtes adhoc, pour créer et pour distribuer des rapports.
Avec le temps, les entrepôts de données sont devenus des éléments cœur des architectures de données. Et rares sont aujourd’hui les entreprises qui ne s’appuient pas sur une forme d’entrepôts de données ou sur une collection de petits datamarts pour leurs opérations de BI, leur reporting ou leurs applications analytiques.
Journal d'une mort annoncée pour le Datawarehouse ?
Toutefois, dans les entreprises, de nouvelles technologies de la donnée montent progressivement en puissance, à commencer par les clusters Hadoop, les bases NoSQL, en colonnes ou en mémoire, et les outils de virtualisation des données.
A tel point que la question de la présence des entrepôts de données dans le SI se pose. D’ailleurs, certains observateurs ont déjà prédit la mort de cette technologie, anticipant sa disparition au profit des systèmes Big Data et des plates-formes HPC.
Certes, ces autres technologies offrent des avantages que les entrepôts de données traditionnels n’ont pas.
Hadoop est un framework pour environnement distribué qui promet des niveaux élevés en termes de performances et de scalabilité, et ce, en se reposant sur des serveurs à bas coût dits de commodité.
Les bases de données en mémoire et celles en colonnes, destinées à l’analytique, ont également la capacité d’accroître considérablement les performances de traitement.
Les bases NoSQL quant à elles contournent les schémas des systèmes relationnels et offrent davantage de flexibilité pour le développement d’applications.
Enfin, ajouter une couche de virtualisation de données au-dessus d’un système favorise l’intégration à la volée et, dans certains cas, permet opérer des traitements transactionnels et des applications analytiques simultanément sur un même jeu de données. Évitant d’avoir recours aux phases d’extraction et de chargement des données dans un entrepôt séparé.
Examiner les coûts
Pourtant, la mort annoncée des entrepôts de données pourrait bien être prématurée. D’un point de vue financier, les motivations d’une migration vers de nouvelles technologies doivent être équilibrées et prendre en compte les investissements existants en matière d’entrepôts de données, déjà en production.
Il est également utile de préciser un point : il est parfois nécessaire d’investir plus que prévu pour ressentir l’effet d’un changement radical.
Il est raisonnable de penser qu’avec cette quantité de stockage inépuisable, les utilisateurs sauvegardent leurs données sans compter
Considérez par exemple les coûts d’infrastructure. Télécharger et installer un logiciel Open Source comme Hadoop sur un système de serveurs de commodité interconnectés offre certes une alternative aux serveurs haut de gamme ou au mainframe où sont généralement installés les entrepôts de données.
S’il est possible de créer un environnement de test avec cette approche, cela demande toutefois un investissement supplémentaire pour qu’un cluster Hadoop tienne véritablement ses promesses en matière de performance : une entreprise doit non seulement investir dans la technologie, mais également dans une équipe qualifiée pour déployer et maintenir la plate-forme.
Le potentiel d’Hadoop en matière d’élasticité du stockage pré-suppose aussi une capacité illimitée en espace disque. Il est raisonnable de penser qu’avec cette quantité de stockage inépuisable, les utilisateurs sauvegardent leurs données sans compter, remplissant ainsi rapidement l’espace disque disponible avec des données non structurées (et dénuées de toute gouvernance) qui n’ont certainement aucune valeur métier.
Une approche mixte pour gérer ses données
D’autres facteurs sont donc à prendre en compte :
- Les entreprises qui ont investi lourdement dans leur entrepôt de données doivent calculer à l’avance un ROI des déploiements Hadoop et NoSQL avant de décider de remplacer complétement leurs solutions.
- A cause de leur nature Open Source, les technologies comme Hadoop (et la sphère des outils qui l’entourent) doivent encore évoluer avant d’atteindre le niveau de maturité des entrepôts de données – s’ils y arrivent un jour.
- Même si les composants Hadoop sont censés reproduire les schémas et les requêtes interactives des entrepôts de données, cela reste largement axé sur du traitement batch.
- Les utilisateurs métier sont encore, pour la plupart, dépendants des rapports et autres requêtes adhoc de l’entrepôt de données de leur entreprise.
Évidemment, on ne peut pas passer à côté des capacités de traitement parallèle de la plate-forme. Des capacités qui permettent d’exécuter des algorithmes complexes pour analyser de grandes quantités de données – ce qui ne peut pas être fait avec un système classique. Cela peut servir par exemple à augmenter les données contenues dans l’entrepôt de données, muscler les profils des clients et prendre des décisions plus averties.