Evaluer vos besoins en matière d'entrepôt de données
Les entrepôts de données ont toujours leur place à l'ère du Big Data. Vous devez cependant réfléchir à quelques questions, à commencer par celle-ci : pourquoi en avez-vous besoin ?
Les entrepôts de données sont de véritables fenêtres sur les performances historiques et les opérations courantes de l'entreprise. Ils fournissent aux analystes de données et aux utilisateurs professionnels des informations sur des sujets tels que les comportements des clients, les tendances de l'activité et les ventes trimestrielles et annuelles. Malgré l'émergence de Hadoop et d'autres technologies de Big Data, les entreprises cherchent toujours à obtenir et à analyser des données provenant de diverses sources. Les Data Warehouses restent donc d'actualité. Mais avant d'investir dans une plateforme de ce type, commencez par vous demander si vous en avez réellement besoin et quels avantages votre entreprise en tirerait.
Pour ce faire, vous devez étudier les deux options de déploiement d'entrepôts de données : à l'échelle de l'entreprise ou à celle du service.
Vous devez également déterminer si l'environnement de l'entrepôt de données comportera du Big Data non structuré et décider si vous souhaitez intégrer un entrepôt de données traditionnel pour le traitement analytique OLAP à la gestion et au traitement des données pour les solutions d'analytique du Big Data.
Enfin, vous devez pouvoir choisir les plateformes d'entrepôt de données les plus appropriées selon les scénarios d'utilisation.
Un entrepôt de données, pour quoi faire ?
Le Data Warehouse est un concept assez simple : des données sont régulièrement extraites des systèmes opérationnels qui soutiennent l'activité, puis copiées sur un système spécialisé (un entrepôt de données) pour être analysées et consignées par le biais de tableaux de bord, de portails et d'outils d'informatique décisionnelle, de reporting et d'analytique.
Si l'un ou l'autre des cas suivants vous concerne, votre entreprise aurait tout avantage à utiliser un entrepôt de données :
- Vous n'arrivez pas à créer des rapports performants sur les activités de l'entreprise, car les données nécessaires ne sont pas systématiquement disponibles.
- Les données sont copiées séparément par différents services et groupes, puis analysées dans des tableurs qui ne sont pas forcément homogènes.
- Les doutes qui planent sur l'exactitude des données poussent les dirigeants et les cadres à remettre en question la véracité des rapports.
- Le reporting sur les bases de données de production accroît le traitement nocturne ou mensuel des données transactionnelles.
- L'exécution de requêtes ad hoc sur les bases de données de production ralentit les systèmes opérationnels.
Un entrepôt de données correctement implémenté aiderait votre entreprise à répondre précisément aux questions concernant votre activité, par exemple sur les événements survenus et leurs causes.
Le Data Warehouse améliore la disponibilité des données, qui sont centralisées dans un référentiel après leur collecte en différents points et depuis différentes sources. Lorsque les données résident dans l'entrepôt plutôt que dans les bases de données de production, les flux de travail opérationnels sont plus efficaces car l'activité analytique est déplacée sur un autre système.
Lors de leur transit vers l'entrepôt, les données sont évaluées, nettoyées et transformées, ce qui doit normalement améliorer la qualité des informations contenues dans les rapports générés à partir de l'entrepôt de données.
Options de déploiement d'un entrepôt de données
L'environnement d'un entrepôt de données peut être très différent d'une entreprise à une autre. Il existe plusieurs options de déploiement : entrepôt de données d'entreprise (EDW, Enterprise Data Warehouse), datamart ou hybride.
Un EDW est structuré de manière à contenir toutes les données pertinentes des systèmes opérationnels d'une entreprise – et éventuellement des sources de données externes – et sert dans tous les services. Les données sont manipulées pour effectuer des requêtes, transformées et rassemblées pour les collectes BI (voir la figure ci-dessous).
Certaines entreprises ont mis en oeuvre un ODS (Operational Data Store), structure intermédiaire entre les systèmes opérationnels et l'entrepôt de données. Les données opérationnelles sont copiées dans l'ODS, puis extraites pour être utilisées dans l'entrepôt. L'ODS constitue une source unique de données prétransformées et apporte plus de détails que l'entrepôt de données pour les requêtes d'analyse au niveau de l'entrepôt.
Une autre approche consiste à créer des datamarts, qui sont des entrepôts de données de portée plus restreinte, focalisés sur des activités et des domaines particuliers.
Les entreprises se tournent généralement vers les datamarts lorsque le besoin spécifique d'un service en matière de rapports et de BI peut générer rapidement un retour sur investissement. Le datamart n'est pas un vaste projet qui mobilise toute l'entreprise ; plus ciblé, il peut apporter rapidement des bénéfices.
Il est possible de créer plusieurs datamarts, selon la taille et la mission de l'entreprise. Ces datamarts peuvent être intégrés à d'autres pour former un EDW virtuel, ou ils peuvent servir à remplir physiquement un EDW dans les entreprises qui associent les deux approches (voir la figure ci-dessous). Une entreprise qui choisit une approche de type datamart peut traiter des sujets particuliers les uns après les autres, ce qui n'est pas possible avec l'approche monolithique d'un EDW.
Les deux possibilités de déploiement sont adaptées à tous les types de plateformes d'entrepôt de données : systèmes de gestion de base de données traditionnels (généralement relationnels), SGBD analytiques spécialisés, appliances d'entrepôt de données et technologies DWaaS (Data Warehouse as a Service) en Cloud.
Big Data ou entrepôt de données ?
Il règne une certaine confusion sur le marché concernant le potentiel remplacement des entrepôts de données par des technologies Big Data. Ce n'est généralement pas le cas dans les entreprises, où les systèmes de Big Data permettent souvent de renforcer l'entrepôt de données.
En principe, Data Warehouse repose sur un SGBD relationnel, et ses données sont structurées et issues des systèmes opérationnels et transactionnels d'une entreprise. Les entrepôts de données sont manipulés par les dirigeants et les analystes au moyen de tableaux de bord d'informatique décisionnelle, d'outils OLAP et de reporting et de requêtes SQL ad hoc.
Les solutions d'analytique du Big Data, quant à elles, sont généralement prises en charge par des technologies non relationnelles, telles que Hadoop, Spark et NoSQL. Les données peuvent être structurées ou non structurées et proviennent de tout type de système interne, mais aussi de sources de données externes comme les réseaux sociaux.
Des analyses BIg Data sont menées à des fins d'exploration et d'information – par exemple pour prévoir des schémas et comportements futurs à partir d'activités passées. Ces tâches sont effectuées à l'aide de modèles analytiques approfondis développés par des data-scientists et des statisticiens dans des langages tels que Python, R et Scala – et parfois aussi avec quelques rudiments de SQL.
Les technologies Big Data introduisent également le concept de lac de données (data lake), c'est-à-dire un référentiel qui consigne des données brutes de différentes sources conservées dans leur format d'origine, puis filtrées et préparées pour être analysées selon les besoins.
Finalement, les systèmes Big Data et les Data Lake ne sont pas les remplaçants directs des entrepôts de données et des datamarts. Disons plutôt qu'il existe une synergie entre eux.
Par exemple, des ensembles de données structurées collectés dans un lac de données peuvent être transférés vers un entrepôt de données pour une analyse conventionnelle. Les fournisseurs ont également commencé à intégrer la prise en charge du Big Data à leurs plateformes d'entrepôt de données pour permettre l'accès en un seul point aux données stockées dans différents formats.
Cas d'utilisation métier pour les entrepôts de données
Intéressons-nous maintenant à différents cas d'utilisation et scénarios qui vous permettront d'aborder vos projets d'entrepôt de données.
Utilisateurs novices ou chevronnés des entrepôts de données : les entreprises disposant déjà d'un entrepôt de données et cherchant à se développer auront généralement intérêt à élargir l'utilisation de la plateforme en place. Pour celles qui implémentent pour la première fois un entrepôt de données, une appliance est une bonne option. Le fournisseur retenu vous aidera à déterminer la taille et la configuration de l'appliance, livrée prête à l'emploi. Bien sûr, pour des primo-utilisateurs, toutes les plateformes d'entrepôt de données sont envisageables. Pour cerner vos besoins, il est intéressant d'étudier les autres cas d'utilisation décrits ici.
Taille de l'entreprise : les plus grandes entreprises ont le choix de l'approche. SGBD relationnel, base de données analytique ou plateforme HTAP (Hybrid Transaction/Analytical Processing), elles disposent de l'infrastructure et du personnel indispensables pour ces technologies. Dans l'approche HTAP, le même SGBD peut servir aux transactions opérationnelles ainsi qu'aux modèles analytiques et à la BI. Pour assurer le traitement analytique HTAP, un moteur relationnel peut intégrer l'accès en colonne ou une appliance complémentaire.
De leur côté, les entreprises plus petites devraient envisager une appliance d'entrepôt de données ou une configuration DWaaS. En effet, ces deux options demandent une gestion a minima : l'appliance est préconfigurée et l'entrepôt de données en Cloud du DWaaS est configuré et géré par le prestataire de services Cloud.
Utilisation du Cloud : si l'entreprise exécute de nombreuses applications dans le Cloud, le DWaaS est sans doute la meilleure option. Il semble en effet logique d'entreposer et d'analyser dans le Cloud les données préalablement générées et stockées dans cet environnement.
Taille du service informatique : les entreprises avec des services IT modestes ont généralement moins d'administrateurs pour assurer la mise en place et l'optimisation de l'environnement de l'entrepôt de données. Dans leur cas, une solution basée sur une appliance d'entrepôt de données ou un DWaaS est également tout indiquée.
Latence des données : pour les entrepôts de données en quasi temps réel qui demandent une latence minimale, les appliances d'entrepôt de données optimisées sont sans doute le meilleur choix. Il n'est pas impossible d'atteindre une latence en quasi temps réel avec d'autres approches, mais, pour y arriver, il faudra renforcer l'environnement Data Warehouse au moyen de composants matériels et logiciels.
Intégration avec le Big Data : lorsque l'intégration avec des solutions d'analytique du Big Data est importante, penchez-vous sur les offres de type appliances d'entrepôt de données et DWaaS : elles offrent généralement les meilleures possibilités.
Après les cas d'utilisation généraux le prochain article de cette série se penchera sur les options d'achat d'une plateforme d'entrepôt de données.