Comment le cloud redonne vie aux entrepôts de données
Boudés au profit d’Hadoop, les entrepôts de données retrouvent une certaine jeunesse avec le cloud.
L'entrepôt de données a été l’objet de vives critiques ces dernières années. L’arrivée massive de données non structurées a poussé les entreprises à repenser leurs processus analytiques. Hadoop et la vague d’enthousiasme que ce socle open source a suscité a d’ailleurs mis les entrepôts de données sur la défensive.
Toutefois il ne faut pas enterrer trop vite cette technologie historique : il pourrait bien faire son retour, et sous la forme d'un entrepôt de données dans le cloud. Renaissance ? « Nous assistons aujourd'hui à une forme de retour de cette idée propre de l'entrepôt de données dans l'entreprise », note ainsi William McKnight, président du McKnight Consulting Group. Selon lui, de nouvelles approches se mettent en place dû notamment à un changement de perception d’Hadoop.
Les lacs de données ont en effet détourné l'attention des entrepôts de données bien établis dans les SI des entreprises, et avec, leur approche de dimensionnement vertical. Mais c’est aujourd’hui au tour Hadoop de faire face à une nouvelle concurrence : les entrepôts de données dans le cloud.
La migration vers le cloud et le succès du stockage objet, au détriment du stockage dans HDFS (Hadoop Distributed File System), constitue justement une raison première de l'intérêt porté à ces solutions dans le cloud. Sans compter sur le fait que les entrepôts de données en place commencent à montrer des signes de leur grand âge.
« L'entrepôt de données est probablement l'endroit où l'infrastructure de données doit être aujourd’hui prise en main - et plus que partout ailleurs », assure l’expert.
Entrepôts de données : une offre diversifiée
Ce monde connait des nouveaux arrivants, comme Snowflake Computing et Yellowbrick Data. Leur concept pourrait revigorer cette notion même d’entrepôt de données.
Snowflake commercialise une solution SQL en colonnes en mode SaaS et est dirigé par Bob Muglia, autrefois responsable des activités Server and Tools de Microsoft.
Yellowbrick, quant à lui, construit un entrepôt de données sous la forme d’appliance à base de mémoire flash. La société est dirigée par Neil Carson, Pdg de Fusion.io, un spécialiste du stockage flash. Yellowbrick cible d’abord les implémentations sur site, hybrides et privées – mais pas le cloud public.
Ces systèmes sont en concurrence avec les fournisseurs de cloud. AWS est devenu très présent sur ce segment de l'entrepôt de données cloud avec Amazon Redshift en 2013.
IBM avec Db2 on Cloud, Microsoft avec Azure SQL Data Warehouse, Oracle avec Autonomous Data Warehouse, Teradata avec Vantage, parmi les historiques ont également préparé leurs offres pour le cloud.
Sans oublier les pure-players du monde Hadoop, MapR, et Hortonworks et Cloudera - ces derniers ont fusionné - qui ont orienté leur plateforme respective vers les applications d'entrepôt de données.
Ces 10 dernières années, glorieuses pour Hadoop, lui ont d’ailleurs valu des critiques chez ces éditeurs de l’entrepôt de données. « Hadoop restera dans l'histoire comme l'une des plus grosses fausses bonnes idées technologiques », lance Matt Glickman, vice-président de la stratégie client et produit chez Snowflake.
S’il reconnait que les lacs de données qui se sont formés sur Hadoop ont leur intérêt, Hadoop est toujours en retard en ce qui concerne la concurrence des requêtes - un domaine sur lequel Snowflake cherche à se différencier.
Snowflake chez Strava
Pour Carlin Eng, ingénieur en données chez Strava, qui développe des applications de performance sportive, Snowflake s'est révélé une plateforme utile.
Avec la génération de nouvelles analyses, la société peut désormais adapter les fonctionnalités pour les utilisateurs qui utilisent un tracker GPS et les aider à créer leurs propres plans d'entraînement.
Créé en 2009, Strava est « né dans le cloud », souligne l’ingénieur. Les données des utilisateurs vont d'abord dans le cloud ; un entrepôt de données cloud est donc tout à fait logique, commente-t-il. Il est important d'extraire ces données pour dégager les tendances et comprendre ce que les gens aiment. Les développeurs peuvent ensuite prioriser leurs travaux.
Mieux répartir le temps des membres de l'équipe technique a également été l'une des principales raisons qui a motivé le choix de Snowflake, ajoute-t-il. « Il existe de nombreux outils open source pour l'analyse de Big Data, mais leur gestion peut poser problème », soutient-il.
Des plateformes Hadoop ont été évaluées, mais certaines ont montré des lacunes.
« Hadoop était une technologie vraiment intéressante qui ouvrait vers des cas d’usage jusqu’alors impossibles. Mais il est peu probable qu'une équipe de notre taille ait l’envie d’administrer les clusters Hadoop », pense Carlin Eng.
Si la possibilité de requêtes simultanées a été un facteur décisif pour Snowflake, minimiser les opérations de maintenance grâce au cloud a également déterminant pour Strava.
« Nous ne voulons pas mettre en place une solution qui demande beaucoup d’attention », explique l’ingénieur.
Le cloud pour gérer l’infrastructure
Avec le Big Data, les opérations d’administration qui consistent à faire mettre à l’échelle les entrepôts de données deviennent de plus en plus lourdes. En retour, selon l'analyste Wayne Eckerson, fondateur et consultant principal chez Eckerson Group, l'intérêt pour les services dans le cloud augmente.
« Vous pouvez vous débarrasser de l'infrastructure et du support informatique, vous n'avez pas besoin de passer des mois à gérer les déploiements et vous pouvez les faire évoluer », précise le consultant. « Vous n'avez également pas besoin d'acheter des ressources supplémentaires pour gérer les demandes accrues de capacité. ».
Mort l’entrepôt de données ? Non, il revient sous une autre forme : celle du cloud.