fazon - Fotolia
Quelles perspectives au-delà du data warehouse ?
L’entrepôt de données traditionnel arrive-t-il en fin de vie ? Dans l’affirmative, quelle solution hybride pourrait lui succéder ? Ces questionnements laissent apparaître plusieurs évolutions possibles du data warehousing et poussent les entreprises à choisir leur(s) voie(s).
Depuis les années 1990, les entreprises rassemblent, traitent et analysent leurs informations dans des entrepôts de données.
Le terme d’entrepôt de données a été introduit dans la sphère IT par l’informaticien américain Bill Inmon en 1992, et le concept lui-même remonte à plus loin encore, avec la fondation de Teradata en 1979 et les travaux menés par IBM au début des années 1980. L’objectif était alors de permettre aux entreprises d’analyser leurs données pour améliorer la prise de décision, sans qu’elles aient à interroger des dizaines de bases de données différentes.
Depuis, la technologie a évolué, octroyant aux sociétés de traiter les données à une plus large échelle, plus rapidement et avec plus de précision.
Mais certains estiment aujourd’hui que le data warehouse a atteint sa fin de vie. En effet, les volumes croissants de données et la nécessité de traiter et d’analyser les informations en quelques heures ou minutes, voire en temps réel, mettent à rude épreuve les architectures reposant sur des entrepôts de données conventionnels.
De plus, les fournisseurs de data warehouse sont confrontés à la concurrence du cloud. Un entrepôt sur site peut coûter des millions de dollars, il faut des mois pour le déployer et, surtout, de longs mois encore pour le reconfigurer afin de prendre en charge de nouvelles requêtes et de nouveaux types de données. Les DSI se tournent vers le cloud, qui offre une plus grande souplesse pour héberger leurs outils d’analyse.
Croissance exponentielle des données
« Les data warehouses traditionnels ont du mal à faire face à la croissance exponentielle des données en entreprise », explique Richard Berkley, expert en données et en solutions analytiques au sein du cabinet de conseil PA Consulting. « Le cloud offre désormais beaucoup plus d’évolutivité et d’agilité que les entrepôts de données conventionnels », affirme-t-il.
« Les technologies cloud peuvent s’adapter de manière dynamique, en mobilisant la puissance de traitement requise pour répondre rapidement aux requêtes, juste le temps nécessaire », poursuit Richard Berkley. « Vous ne financez plus une infrastructure qui reste inactive et vous pouvez obtenir de bien meilleures performances, car le traitement de chaque requête est bien plus modulable qu’avec des services sur site. »
Par ailleurs, les volumes de données ne sont pas le seul défi auquel est confronté le data warehouse. En effet, les entreprises veulent éviter de rester prisonnières d’une seule base de données, ou d’une seule technologie d’entrepôt de données.
Les entreprises cherchent de plus en plus à exploiter les informations issues des flux de données, qu’ils proviennent des réseaux sociaux, du e-commerce, ou encore des capteurs et de l’Internet des objets (IoT). Or, les data warehouses, avec leurs schémas de données et leurs processus ETL soigneusement élaborés, ne sont pas assez maniables pour gérer ce type de requête.
« Le marché a évolué », constate Alex McMullan, directeur de la technologie pour l’Europe, le Moyen-Orient et l’Afrique chez Pure Storage.
« Il ne suffit plus de produire un rapport de synthèse que vous imprimez en couleurs pour le remettre le lendemain au PDG. Les gens font de l’analyse en temps réel et génèrent des recettes par la même occasion. » Les applications, dit-il, vont du trading algorithmique à la supervision de la sécurité.
Le data lake ne remplace pas le data warehouse
À un moment donné, les lacs de données semblaient destinés à prendre le relais des data warehouses. Dans un data lake, les informations sont stockées sous leur forme brute, sur un stockage objet, le plus souvent dans le cloud.
Les lacs de données sont plus rapides à mettre en place et à exploiter, car ils ne nécessitent aucun traitement ou nettoyage préalable des données, et ils peuvent contenir des données structurées et non structurées. Le traitement et le processus ETL ont lieu au moment où un analyste exécute une requête.
Les lacs de données sont de plus en plus utilisés en dehors de l’informatique décisionnelle (BI) classique, dans des domaines tels que l’intelligence artificielle (IA) et le machine learning. Parce qu’ils rompent avec la structure rigide de l’entrepôt de données, ils sont parfois présentés comme une forme de démocratisation de l’informatique décisionnelle.
Ils comportent toutefois eux aussi des inconvénients. Si les data warehouses se servaient de leur structure pour améliorer leurs performances, cette rigueur peut être perdue avec un lac de données.
Tony BaerAnalyste, dbInsight
« Les entreprises ont tendance à accumuler plus de données qu’elles ne peuvent en utiliser », explique Tony Baer, analyste chez dbInsight. « Elles n’ont pas la discipline que procure une approche fondée sur l’architecture d’entreprise. Nous recueillons plus de données que nécessaire, et elles ne sont pas pleinement exploitées. »
Pour y remédier, les organisations déploient encore plus de ressources (un processus facilité par le cloud) et se retrouvent avec des performances « presque aussi bonnes que celles d’un data warehouse, mais obtenues par la puissance pure et dure », conclut-il.
Contrôler les requêtes et les coûts
Cette approche peut s’avérer inefficace et coûteuse. Tony Baer souligne que les fournisseurs de solutions analytiques cloud tels que Snowflake intègrent davantage de « garde-fous » pour maîtriser les requêtes et les coûts. « Ils sont en bonne voie, mais il est encore facile de continuer à ajouter des VM [machines virtuelles] », observe-t-il.
Entrepôts et lacs de données répondent également à des besoins différents. Ainsi, le data warehouse convient aux requêtes reproductibles et répétitives utilisant des données nettoyées de haute qualité, souvent exécutées par lots, tandis que le data lake permet une approche plus ponctuelle, voire spéculative, de l’interrogation des informations d’entreprise.
« Pour les requêtes de type “what if”, nous constatons un usage grandissant de lacs de données ou de systèmes de gestion de documents », explique Alex McMullan de Pure Storage. Il qualifie cette méthode de solution analytique du « chasseur-cueilleur », tandis que les entrepôts de données permettent des analyses de type « agricole ».
« L’analytique du chasseur-cueilleur consiste à chercher les questions à poser, plutôt qu’à répéter la même question », indique-t-il.
L’objectif du secteur est toutefois de combiner l’élasticité, la vitesse et la capacité à traiter des données en continu, avec un traitement efficace des requêtes, le tout sur une seule et même plateforme.
Nouvelles architectures
Cet objectif nous oriente vers plusieurs catégories nouvelles et émergentes, notamment le data lakehouse (l’approche adoptée et poussée par Databricks) ; l’architecture multiclusters basée sur le cloud de Snowflake ; et Redshift Spectrum d’Amazon, qui connecte l’entrepôt de données Redshift du fournisseur cloud à son service de stockage S3.
Et, bien que le secteur ait largement abandonné l’idée de créer des lacs de données autour de Hadoop, d’autres projets open source, comme Apache Spark, commencent à s’imposer sur le marché.
Le changement est moins motivé par la technologie que par l’évolution des besoins analytiques des entreprises.
« Les exigences en matière de données diffèrent de celles d’il y a cinq ou dix ans », explique Noel Yuhanna, analyste spécialisé en gestion et stockage des données chez Forrester.
Noel YuhannaAnalyste, Forrester
« On commence à s’intéresser à l’intelligence client, à l’analyse du changement et à l’analytique consacrée à l’IoT. »
« Il existe une nouvelle génération de sources de données, notamment les données des capteurs et de l’IoT, et les entrepôts de données ont évolué pour les prendre en compte, [en traitant] des données semi-structurées et non structurées. »
Le cloud apporte davantage d’élasticité et de modularité, ainsi que des économies d’au moins 20 %, les réductions de coûts pouvant se monter à 50 %, voire 70 %, dans certaines situations. Toutefois, il fait remarquer que peu d’entreprises exploitent réellement leurs systèmes analytiques à l’échelle du pétaoctet : Forrester estime que moins de 3 % d’entre elles le font.
Ces dernières se trouvent principalement dans le secteur de la fabrication et dans d’autres secteurs utilisant un grand nombre d’instruments. Elles pourraient, pour leur part, se tourner vers le traitement edge et le machine learning afin de réduire les flux de données et d’accélérer la prise de décision.
L’autre changement attendu n’est autre que le passage au traitement en temps réel : les données sur le parcours de navigation dans l’e-commerce, le divertissement et les réseaux sociaux produisent des flux constants d’informations qui nécessitent une analyse immédiate, mais dont la valeur à long terme est limitée. Les entreprises, elles, n’investiront dans des outils analytiques des flux de données que si elles sont capables de réagir à ces informations, ce qui exige un haut niveau d’automatisation.
Cette situation pousse les éditeurs à prétendre qu’ils peuvent couvrir les deux marchés, en alliant la souplesse du lac de données au traitement structuré de l’entrepôt de données. Databricks, par exemple, affirme être en mesure d’appliquer la BI et le machine learning sur toutes les données dans son data lakehouse, évitant ainsi à ses clients d’avoir à se doter d’une double architecture, pour l’entrepôt de données et le lac de données. Il n’est toutefois pas certain que cela signe la fin du data warehouse traditionnel.
« Sans ce lakehouse, le monde est divisé en deux, déclare Ali Ghodsi, PDG de Databricks. Il y a les entrepôts, qui relèvent surtout du passé, et vous permettent de poser des questions du type “quel était mon chiffre d’affaires au dernier trimestre ?” »
« Et de l’autre côté, il y a la possibilité d’appliquer l’IA et le machine learning, qui sont des technologies d’avenir. “Lequel de mes clients va se désabonner ? Ce moteur va-t-il tomber en panne ?” Ce sont des questions beaucoup plus intéressantes, affirme-t-il. Je pense que le lakehouse représente la voie de l’avenir, et que dans 10 ans, on n’utilisera plus vraiment les entrepôts de données de la même manière. »
« Ils seront encore là, tout comme les mainframes existent toujours, mais je pense que le lakehouse va détrôner le data warehouse. »
Retour vers le futur
Pour autant, tout le monde ne considère pas que le data warehouse a fait son temps. Comme le concède Ali Ghodsi, certains systèmes perdureront tant qu’ils seront utiles. Le passage à de nouvelles plateformes, aussi prometteuses soient-elles, comporte également des risques.
Richard BerkleyPartenaire, PA consulting
« Les lacs de données, et les nouveaux modèles d’infrastructure, peuvent être trop simplistes et ne règlent pas vraiment le problème de complexité que posent la gestion et l’intégration des données », déclare Richard Berkley de PA Consulting. Tout dépendra en grande partie des informations que les entreprises souhaitent tirer de leurs données.
« Les entrepôts et les lacs de données sont très complémentaires », indique Jonathan Ellis, directeur de la technologie de DataStax, éditeur d’une distribution entreprise d’Apache Cassandra.
« Nous ne diffusons pas Twitter ou Netflix depuis un data warehouse, mais nous n’effectuons pas non plus un tableau de bord BI à partir de Cassandra. [Nous] exécutons des applications en production reposant sur Cassandra et effectuons des analyses dans l’entrepôt de données. Ce qui est passionnant dans ce domaine, c’est de combiner la technologie de streaming et l’entrepôt de données. »
« Les bases de données sont complexes et, bien que tous les acteurs du secteur de l’entreposage de données utilisent largement le langage SQL, tout se complique quand on entre dans les détails, explique-t-il. La conception des schémas pour des performances optimales diffère d’un fournisseur à l’autre. »
Il prédit l’avènement d’un modèle hybride, comprenant des logiciels sur site et dans le cloud, open source et exclusifs, pour créer un « entrepôt de données déconstruit », plus flexible que les offres classiques, et plus à même de traiter des données en temps réel.
D’autres professionnels du secteur sont d’accord. Il est probable que nous assistions à une diversification du marché, plutôt qu’à la substitution d’une technologie à toutes les autres, même si cela représente un défi pour les DSI. Le data lake devrait rester, au moins pour un certain temps, la « golden copy » des données de l’entreprise.
Alex McMullan de Pure Storage prévoit que les entreprises utiliseront des entrepôts, des lacs et des hubs pour visualiser différents jeux de données sous différents angles. « Ce sera beaucoup plus difficile qu’avant, compte tenu des data sets modernes et des contraintes qui vont avec, dit-il. La question ne se limite plus à ce que vous pouvez faire dans votre rack 42U de 19 pouces. »