5 questions pour bien choisir votre entrepôt de données
Quelle est la taille de votre entreprise ? Quelles sont ses ressources ? Quels sont ses besoins en matière de performances ? En se posant ces questions, vous aurez déjà un premier élément de réponse pour savoir comment choisir le bon entrepôt de données.
Vous vous êtes décidé à déployer un nouvel entrepôt de données ou vous cherchez à augmenter votre solution existante ? Il vous faut désormais choisir la bonne technologie. Et cela peut s’avérer compliqué au regard de la multitude de plateformes et de fournisseurs sur le marché.
Les utilisateurs historiques des entrepôts de donnés disposent généralement d’un système de gestion de base de données relationnelle (SGBDR) , comme IBM DB2, Oracle ou SQL Server. Pour cette catégorie, il fait sens d’augmenter et d’étendre le champ fonctionnel de leur solution en continuant à utiliser leur entrepôt de données. Chacune de ces plateformes proposent des mises à jour de fonctions ou bien des add-ons.
Toutefois, la décision est plus compliquée pour les primo-accédants de ces grosses plateformes, car se présente à eux un ensemble de fonctions. Ils peuvent alors se diriger vers une base de données traditionnelle, une base analytique, un entrepôt de données sous forme d’appliance, ou bien dans le Cloud. Les éléments ci-dessous peuvent faciliter la prise de décision.
1 - Quelle est la taille de votre entreprise ?
Les entreprises de grande taille disposent généralement de davantage de ressources, qu’elles soient financières ou en effectifs, et cela ouvre le panel de technologies accessibles. Il peut faire sens pour ces entreprises de déployer plusieurs entrepôts de données, comme par exemple associé un SGBDR avec une base analytique, comme HPE Vertica et SAP IQ. Les requêtes classiques sont alors traitées par la base relationnelle et les traitements analytiques de type OLAP (Online Analytical Processing) par la base analytique.
Par exemple, HPE Vertica dispose d’une fonction Machine Data Log Text Search, qui permet de collecter et d’indexer de grands jeux de données. Les outils analytiques SQL de la plateforme proposent ainsi des capacités avancées pour des traitements OLAP, ou des analyses géospatiales ou de sentiments.
La plateforme Active Enterprise Data Warehouse de Teradata est autre option viable pour les grandes entreprises. Active EDW est une appliance de base de données conçue pour un entrepôt de données reposant sur une architecture MPP (Massively Parallel Processing). La plateforme associe les modes relationnel et en colonne, avec des fonctions SQL limitées. Teradata Active EDW peut être déployé sur site ou dans le Cloud, hébergé par Teradata ou AWS.
Pour les PME et ETI, où flexibilité et simplicité sont deux composants clés, réduire le nombre de fournisseurs est un point important. Il s’agit alors de rechercher des fournisseurs qui proposent une couche de compatibilité entre différentes plateformes. Par exemple, Microsoft, IBM et Oracle ont tous un catalogue de produits qui minimise le recours à plusieurs fournisseurs. Les capacités hybrides d’une plateforme (alliant transactionnel et analytique au sein d’une unique base) sont aussi un point fort pour cette typologie d’entreprises.
Les entreprises de taille réduite, ou celles avec des ressources IT limitées, devraient quant à elles regarder du côté de l’appliance ou d’une solution dans le Cloud (Datawarehouse-as-a-service, DWaas). Ces deux options sont faciles à mettre en place et réduisent les opérations d’administration. Dans le Cloud, par exemple, Amazon Redshift et IBM dashDB proposent des services d’entrepôt de données entièrement managés qui abaissent les coûts d’implémentation et les dépenses en gestion.
Quelle que soit la taille de l’entreprise, il fait aussi sens de travailler avec un fournisseur ou un produit connu. Par exemple, les entreprises utilisant Oracle Database peuvent choisir Oracle Exadata Database Machine ou l’appliance de la marque. Exadata embarque Oracle Database 12c ; les développeurs et administrateurs pourront facilement s’y faire. De plus, les périodes d’intégration et de planification en amont sont minimisées avec Exadata car la solution associe la base de données à du compute, du stockage et du réseau.
Une autre option pour les entreprises utilisatrices d’IBM DB2 est IBM PureData System for Analytics, qui repose sur DB2 for LUW. Il faut toutefois garder à l’esprit que les entrepôts de données au format appliance peuvent être coûteux, les rendant presqu’inaccessibles aux petites entreprises.
Les utilisateurs de solutions Microsoft peuvent enfin regarder du côté de Microsoft Azure SQL Data Warehouse. Ce service d’entrepôt de données entièrement managé est compatible et intégré à l’écosystème SQL Server.
2 – Quels sont vos besoins en matière de disponibilité et performances ?
La haute disponibilité et le temps de réponse sont d’autres éléments à prendre en compte. La plupart des entreprises sont à la recherche des deux, mais tous les entrepôts de données n’en ont pas besoin.
Lorsque la disponibilité et la performance sont deux critères essentiels, le DWaas ne doit pas être prioritaire à cause d’une rapidité amoindrie dûe à la latence du réseau. En revanche, des déploiements sur site peuvent alors être adaptés et optimisés par les équipes IT pour augmenter la disponibilité du système et les performances. Cela peut vouloir dire s’appuyer sur les dernières fonctions d’un SGBDR, comme les outils HTAP d’Oracle Database ou de DB2 avec soit IBM DB2 Analytics Accelerator pour DB2 pour Z/OS ou BLU Acceleration pour DB2 pour LUW.
La plupart des fournisseurs proposent des fonctions d’indexes et de compression avancée des données, de zone maps ou encore d’indexes de bitmaps. Pour la plupart des utilisateurs, toutefois, les besoins en performance et disponibilité peuvent être satisfaits avec les appliances, comme IBM PureData, Teradata Active EDW et Oracle Exadata. Ces plateformes sont conçues pour supporter des workloads d’entrepôts de données mais nécessitent un minimum d’ajustements et d’administration.
Une autre appliance à avoir dans le viseur est Actian Analytics Platform, conçue pour supporter les implémentations de solution haute performance par exemple. La plateforme associe les fonctions relationnelles et en colonne, mais aussi des outils avancés en matière d’intégration de données, d’analytique et de performances. Cela peut être une bonne option pour les entreprises à la recherche d’une solution mêlant relationnel et analytique. Actian Analytics Platform comprend Actian Vector, un SMP (Symmetric Multiprocessor) développé pour l’analytique haute performance. Avec cette technologie, une seule opération peut être appliquée à plusieurs données de façon simultanée, et le cache CPU utilisé comme mémoire pour l’exécution.
Pivotal Greenplum est un entrepôt de données MPP capable d’effectuer des analyses haute performance sur de grands volumes de données. La plateforme associe relationnel et colonne et peut être déployée sur site, sous la forme d’une appliance ou de service dans le Cloud. Etant donné son socle Open Source, Pivotal Greenplum peut être un point positif pour les entreprises ayant construit leur infrastructure sur une pile Open Source.
3 - Avez-vous déjà un pied dans le Cloud ?
Les options Cloud (DWaas) sont probablement ce qui convient le mieux aux entreprises ayant déjà déployé des outils dans le Cloud. Les autres solutions (sur site) nécessitent de déplacer les données du Cloud vers l’entrepôt de données sur site. Il faut également garder à l’esprit qu’outre les plateformes purement Cloud, comme AWS RedShift, IBM dashDB et Azure SQL Data Warehouse, nombre de fournisseurs d’entrepôts de données proposent des déploiements dans le Cloud.
4 – Quels sont vos contraintes en matière de volume de données et latence ?
Même si généralement, les entrepôts de données sont là pour supporter des pétaoctets de données brutes, la volumétrie peut varier d’un projet à l’autre. Les plus grosses implémentations s’adossent à des configurations personnalisées, mixant SGBDR, base analytique ou déploiements HTAP. Lorsque les besoins en volumétrie diminuent, d’autres options peuvent être alors considérées, comme les entrepôts de données sous la forme d’appliance.
5 – L’entrepôt de données est-il un composant clé de votre stratégie Big Data ?
Les contraintes liées au Big Data commencent à avoir un effet sur les entrepôts de données. Nombre d’entreprises intègrent des données non structurées dans leur entrepôt de données pour y mêler analytiques et BI. Si votre projet nécessite cette approche, vous devez regarder du côté des plateformes capables de gérer et d’exploiter ce type de données. Les ténors des bases de données, comme Oracle, IBM et Microsoft, intègrent le support des données non relationnelles et de Hadoop dans chacune de leurs offres.
IBM dashDB peut aussi être une bonne option : les données non structurées peuvent être traitées via une intégration direct à IBM Cloudant, permettant de stocker des données JSON et NoSQL. Teradata Active EDW supporte Unified Data Architecture, pour accéder et analyser les données relationnelles et non relationnelles. Actian Analytics Platform propose un espace Datascience, pour simplifier l’analytique et une version d’Actian Vector pour traiter les données dans Hadoop. Enfin, Microsoft Azure SQL Data Warehouse permet d’opérer des analyses sur tous types de données, qu’elles soient relationnelles ou semi structurées stockées dans Hadoop, via son langage T-SQL.
Que faire si vous avez déjà un entrepôt de données ?
L’entrepôt de données est là depuis des décennies et représente un composant classique des SI des entreprises. Toutefois, même si vous avez un système en place et ne souhaitez pas changer de socle technologique, vous pouvez tout de même en améliorer les performances et le champ fonctionnel.
Votre fournisseur de base de données a probablement déjà mis à jour ses versions depuis votre déploiement. Vous pouvez alors en bénéficier et profiter de nouvelles fonctions comme OLAP et des fonctions d’ETL intégrées. D’une manière générale, ces mêmes fournisseurs ont généralement doté leurs solutions de possibilités HTAP pour effectuer des traitements transactionnels et analytiques au sein d’une même plateforme.
Traduit et adapté par la rédaction