Déployer un entrepôt de données : quels avantages ?
Le Big Data occupe certes le haut de l’affiche, mais les entrepôts de données sont toujours aussi utilisées par les entreprises, quelle que soit leur taille. Notre expert Craig S. Mullin ouvre le capot d’une technologie qui est loin d’être à la retraite.
L’entrepôt de données est un élément clé des architectures de données et de l’infrastructure IT de nombreuses entreprises depuis 30 ans. Malgré cet héritage, la confusion entoure aujourd’hui le concept.
Avec l’avènement des lacs de données (« datalakes »), du Big Data et des outils analytiques avancés, certains experts de l’industrie se demandent si l’entrepôt de données est encore pertinent. Pour faire court, la réponse est : absolument. Pour faire plus long, il suffit de lire cet article qui détaille ce qu’il faut savoir avant d’acheter un entrepôt de données.
Malgré le hype autour de Big Data, les entreprises, toutes industries confondues, utilisent encore des entrepôts de données pour fournir de la BI sur laquelle les chefs de services et cadre dirigeants peuvent s’appuyer dans leurs prises de décision. Les plateformes d’entrepôt de données offrent aux métiers un historique de leurs activités. Même si le Big Data et l’analytique ont bien leur place, l’entrepôt de données s’avère être un outil pratique et éprouvé pour analyser les données métiers structurées et pour mettre en place des politiques de prise de décision centrées sur la donnée.
Un entrepôt de données, c’est quoi ?
On peut définir un entrepôt de données par le type de données qu’il stocke et les personnes qui l’utilisent. Conçu pour favoriser les prises de décision et la mise en place de BI, l’entrepôt de données se distingue des applications OLTP (Online Transaction Processing) réalisées au quotidien, qui quant à elles supportent les activités cœur de métier. Cela réduit donc les frictions entre transactions opérationnelles et requêtes analytiques.
Un entrepôt de données est généralement accessible en lecture seule, et les données sont organisées selon les contraintes métier, plutôt que selon les traitements informatiques. La plateforme classe l’information par sujet d’intérêt pour les analystes métiers et les responsables de services – comme par exemple, par clients, produits ou comptes. La donnée est chargée dans l’entrepôt, puis rendue disponible pour être interrogée par les utilisateurs métiers.
L’information stockée dans un entrepôt de données est hiérarchisée, intégrant les transactions qui ont déjà eu lieu. A cause de cela, les données ainsi stockées sont dans une version épurée ou agrégées pour en faciliter la recherche, l’accès et l’interrogation. Les données redondantes sont souvent inclut dans un entrepôt de données pour proposer aux utilisateurs plusieurs vues de l’information, présentée de façon logique, sous la forme de groupe facile à comprendre.
Les entrepôts de données contiennent des informations qui ont été triées à partir des systèmes opérationnels, des données externes comme par exemple liées à des points de vente. Les données y sont consolidées et stockées dans une forme cohérente pour l’entreprise, même lorsque les données opérationnelles sont formatées et stockées sous plusieurs modèles. Cela permet aux analystes métier d’observer l’information sans avoir à transformer les données.
Par exemple, une requête effectuée sur un entrepôt de données pourrait être : « Quel était le revenu total généré par telle région, pour un produit donné, au premier trimestre de l’année dernière ? »
Même si les données ne changent pas une fois stockées, de nouvelles sont chargées régulièrement. La fréquence d’ajout est liée aux contraintes de latences des applications de BI et des systèmes de prise de décision qui s’appuie justement sur l’entrepôt de données. Nombre de plateformes modernes sont en quasi temps réel, ce qui signifie que la latence est faible entre deux étapes : une fois que la donnée est créée ou modifiée dans un système de production et une fois que la nouvelle donnée est déplacée vers l’entrepôt de données.
La fonction la plus spécifique des entrepôts de données est qu’ils permettent à une entreprise d’analyser leurs données au fil du temps. De leur côté, les bases de données opérationnelles supportent les systèmes de production utilisés pour faire tourner le métier. Les données opérationnelles sont atomiques par nature, changent sans cesse (elles sont mises à jour par les applications OLTP) et reflètent seulement la valeur en cours de la dernière transaction.
Entrepôts de données : pour quoi faire ?
L’entrepôt de données supporte OLAP (Online Analytical Processing) qui permet aux utilisateurs chevronnés d’analyser les opérations via des accès aux données stockées Cela permet aux responsables métier d’améliorer les stratégies d’entreprise ainsi que les prises de décision en interrogeant l’entrepôt de données pour examiner les processus métier, les performances et les tendances.
Voici une liste de tâches pouvant être effectuées par un entrepôt de données :
- Suivre, gérer et améliorer les performances de l’entreprise ;
- Monitorer et modifier une campagne marketing ;
- Optimiser la logistique et les opérations ;
- Améliorer l’efficacité en matière de gestion de produits et de développement ;
- Interroger, agréger et accéder à des informations disparates et multi-sources ;
- Améliorer la relation clients ;
- Prévoir les opportunités de croissance ;
- Nettoyer et améliorer la qualité des données de l’entreprise.
Il existe de nombreux avantages à déployer un entrepôt de données. D’un point de vue IT, séparer les processus analytiques dans un entrepôt de données et les processus opérationnels dans les applications de production permet d’abord d’améliorer les performances. D’un point de vue métier, un entrepôt de données peut constituer un outil très pratique pour visualiser l’historique sans que cela n’ait un effet sur les opérations au jour le jour. En interrogeant et analysant les données de l’entrepôt de données, les entreprises peuvent donc améliorer les opérations et mettre en place des processus métier plus efficaces – pour au final augmenter les revenus et les bénéfices.
De nombreuses solutions peuvent être rangées parmi les outils pour entrepôts de données, comme les systèmes de gestion de bases de données, les appliances de bases de données, les outils de reporting et OLAP, les outils de BI, les dashboards, les ETL et toutes autres applications d’intégration de données. Tous ces outils sont utilisés pour créer, déployer ou gérer des environnements d’entrepôts de données.
Les différents types d’entrepôts de données
L’entrepôt de données le plus connu est certainement le système de gestion de bases de données. Dans la plupart des cas, il est relationnel, mais tous les types de SGBD peuvent être utilisés. Celui-ci dispose de fonctions et de spécificités qui permettent de l’utiliser pour des opérations d’entreposage de données et de gestion opérationnelle. Il se peut aussi qu’un entrepôt de données soit associé à d’autres logiciels, comme ceux cités auparavant. Evidemment, cela risque d’avoir un impact sur le coût, mais peut aussi améliorer ses capacités de gestion (des fonctions intégrer sont plus faciles à utilisées).
On distingue généralement quatre types d’entrepôt de données :
- Les traditionnels systèmes de gestion de bases de données (SGBD). La plupart sont relationnels, mais pas tous. IBM, Microsoft, Oracle et SAP forment le gros des fournisseurs de technologies.
- Les SGDB analytiques spécialisés. Les entrepôts de données de cette catégorie ne sont pas des SGDB traditionnels. Ils ont été « augmentés » pour supporter les workloads spécifiques de l’entrepôt de donnés. On retrouve par exemple les bases en colonne, comme celles de HP et de SAP.
- Les appliances. Elles sont conçues pour fournir des services d’entrepôt de données prêts à l’emploi. Elles associent généralement logiciel et hardware, avec une base de données analytique ou relationnelle pré-installée et configurée. Le serveur est livré avec une quantité de mémoire et une capacité de stockage adaptées. Elle est installée par le fournisseur ; tout ce dont les clients doivent faire, est la brancher et l’activer (c’est du moins le discours des fournisseurs). Teradata, IBM et Oracle en proposent à leur catalogue.
- Les entrepôts de données dans le Cloud. Le SGBD n’est pas installé sur site mais est accessible via Internet. Une offre Cloud fournit donc un entrepôt de données as-a-service, sans avoir de SGBD ni de hardware sur le site du client. Microsoft, Amazon et IBM sont parmi les spécialistes de ce domaine.
Le marché des fournisseurs de solutions d’entrepôts de données est pour le moins varié. Il est certes dominé par les acteurs SGBD traditionnels, mais il existe bien des offreurs spécialisés dans ce domaine, proposant des bases analytiques et des fournisseurs de services Cloud, susceptibles d’intéresser une certaine catégorie de clients. On trouve également un nombre de solutions hybrides, composées de multiples fonctions de stockage et d’accès à des données structurées et non structurées, comme celles proposées par Pivotal et Actian par exemple – parmi tant d’autres.
Qui déploie, administre et utilise les entrepôts de données ?
La décision en termes d’achat et d’implémentation d’un entrepôt de données est généralement placée entre les mains de soit un responsable métier, soit un responsable de l’IT en collaboration avec les métiers. Le projet de bâtir un entrepôt de données nécessite l’intervention de plusieurs personnes, comme des experts métiers, des architectes de la données, des administrateurs de bases de données, des développeurs, des spécialistes de requêtes SQL et enfin des chefs de projets.
La gestion de l’entrepôt de données est généralement attribuée aux équipes responsables de l’administration de bases de données, et peut-être mis à jour et amélioré par les architectes de données et des analystes. Mais ce sont bien les métiers qui en sont les utilisateurs.