dmussman - Fotolia
Mort d’Hadoop : le marché se trompe selon le TOSIT
La fin d’Hadoop est un sujet récurrent. Pourtant, au salon Big Data AI Paris, l’éléphant a prouvé qu’il n’était pas tout à fait mort, pas encore. Toutefois, les entreprises se préparent à remplacer les briques essentielles du framework open source par des technologies cloud natives.
Bien qu’Hadoop soit né d’une initiative open source, c’est principalement à travers de distributions commerciales et propriétaires que les entreprises l’ont adopté.
Or, le marché s’est fortement contracté. En 2019, MapR se vendait à HPE, qui a renommé la distribution HPE Ezmeral Data Fabric. La même année, Cloudera et Hortonworks officialisaient leur fusion, dévoilée en 2018.
Cette deuxième opération avait mené à la réunion des fondamentaux d’Hortonworks Data Platform (HDP) et de Cloudera Data Hub (CDH), dans une seule plateforme, l’actuelle Cloudera Data Platform (CDP).
Cloudera avait promis de maintenir les deux éditions existantes tout en encourageant ses clients à passer sur la mouture réunifiée. Une stratégie qui n’a pas forcément convaincu les utilisateurs de HDP. Justement, ils avaient choisi HortonWorks pour sa distribution accessible librement, malgré le fait qu’elle soit réservée aux usages non critiques.
Trunk Data Platform, une alternative à Cloudera Data Platform
C’est le cas d’EDF et de la Direction générale des Finances publiques (DGFIP). Or, en décembre 2021, Cloudera a mis fin à ce dispositif, dans le but d’inciter – voire de contraindre – les migrations vers sa propre plateforme.
En 2020, EDF a revu la maîtrise du cycle de vie de ses clusters Hadoop. L’objectif était de rester open source et repousser la prochaine mise à jour à 2023. En 2021, elle a contractualisé un support pour HDP 2.6.5, et lancé un appel pour le support d’une version d’Hadoop open source.
Du côté de la DGFIP, il avait été décidé d’opter pour la version 3.1.4 de HDP, désormais obsolète. « Nous sentions vraiment ce manque d’autonomie et de souveraineté parce qu’il n’y avait aucune maîtrise sur le futur de HDP et il y avait un écart important entre HDP et CDP », résume Mohamed Mehdi Ben Aissa, Architecte Data & Cloud chez DGFIP.
C’est pour ces raisons que les deux entités, par le biais de l’association TOSIT, ont lancé officiellement en avril 2022 une nouvelle distribution open source d’Hadoop (sous licence Apache V2) utilisable en production. Elle est présentée sous le nom de Trunk Data Platform (TDP).
« Nous n’étions pas en mesure de suivre le rythme de l’éditeur, de faire des montées de version tous les deux ans », justifie Édouard Rousseaux, Big Data Lead chez EDF.
Établi sur HDP, le projet a donné lieu à des premiers livrables en décembre 2021. Pour effectuer ce portage, EDF et la DGFIP se sont rapprochées d’Adaltas, une société de consultance spécialisée en gestion de données et en développement.
Les deux entités ont présenté en détail le projet. Outre les fondamentaux Hadoop (reposant sur HDFS, YARN et MapReduce), TDP comprend des versions d’Apache Hive, Zookeeper, Spark 2 et 3, Solr, Tez, Hbase, et Phoenix. Pour la sécurité, les instigateurs du projet s’appuient sur Apache Ranger et Knox, deux projets eux aussi associés au monde Hadoop, en sus de Kerberos.
Pour déployer la plateforme, les contributeurs ont orchestré le remplacement d’Ambari – « trop fortement lié à HDP » – par TDP Manager, une console qui s’appuie sur les éléments d’automatisation de la configuration d’Ansible.
Pour l’instant, seuls huit contributeurs participent activement aux projets, principalement des ingénieurs en provenance d’EDF, de la DGFIP et d’Adaltas. Lors de Big Data AI Paris, les intervenants ont appelé à la participation des entreprises présentes qui seraient dans la même situation.
Linagora, un spécialiste de l’open source, s’était lancé dans un projet similaire, mais avait annoncé dès la fin du mois d’avril qu’il contribuerait à TDP.
La plupart des membres du TOSIT, une structure de promotion de l’open source, sont des grands groupes français. Outre, EDF et la DGFIP, RTE, le groupe BPCE, l’OCDE et l’assurance maladie « ont rejoint récemment l’aventure », dixit Édouard Rousseaux.
Certains d’entre eux, dont la BPCE et la Société Générale, ont opté pour la plateforme de Cloudera. Toutefois, TDP pourrait servir aux utilisateurs de TDP pour assurer des backups sans payer les licences imposées par l’éditeur.
La feuille de route de TDP inclut une possible incubation dans la fondation Apache. « C’est une cible que nous aimerions atteindre », affirme le leader Big Data chez EDF.
Edouard RousseauBig Data Lead, EDF
« Les gens disent qu’Hadoop est mort. En réalité, il est toujours en place chez les grands comptes : il y a des centaines d’applications qui s’appuient sur la technologie. Il faut donc le maintenir en vie », ajoute-t-il.
« Aujourd’hui, Hadoop est principalement utilisé par ceux qui n’ont pas souhaité basculer dans le cloud public », précise la documentation de TDP.
Les grands groupes envisagent l’après-Hadoop
Hadoop a connu son heure de gloire. La technologie devait représenter les fondements du lac de données où les organisations verseraient l’ensemble de leurs données qu’elles analyseraient depuis une seule plateforme permettant de gérer des clusters de données distribuées. Sur le papier, c’était idéal. En réalité, les entreprises ont mal vécu l’implémentation de cette technologie. Certains acteurs ont dépensé des millions d’euros dans Hadoop sans réussir à obtenir les résultats attendus, observent plusieurs acteurs du secteur interrogés par LeMagIT.
D’autres ont constaté des limites techniques les invitant à migrer vers des technologies cloud, dont Amazon RedShift, Google BigQuery ou Snowflake. C’est le cas de Novartis, passé par Hadoop, puis Redshift et enfin Snowflake.
De son côté, Carrefour a remplacé son architecture Hadoop par une combinaison de BigQuery et de Google Cloud Storage.
« Ceux qui vous disaient “ne vous inquiétez pas, bennez vos données dans Hadoop, c’est scalable”, c’était une hérésie », juge Jean-Marc Bonnet, Sales Technology Director Europe de l’Ouest chez Teradata.
Jean-Marc BonnetSales Technology Director Europe de l’Ouest, Teradata
Teradata est un acteur qui se positionne comme l’un des inventeurs du data warehouse. Un temps, il a lui-même proposé Aster, une suite analytique compatible avec MapReduce et des alliances supportant CDH et HDP, le tout en complément de son entrepôt de données.
« Hadoop n’est pas un mauvais produit, c’est qu’il a été malheureusement mal utilisé parce que l’on a fait croire qu’il pouvait faire tout et n’importe quoi », nuance-t-il.
David Worms partage cet avis. « Certains projets Hadoop ont été menés pour les mauvaises raisons ou ont été mal accompagnés. Tout le monde n’a pas besoin du Big Data », indique-t-il.
Jean-Marc Bonnet remet surtout en cause « les manques de MapReduce », que les éditeurs soutenant Hadoop auraient compensé avec des technologies annexes, dont Apache Impala. « Pour faire rouler une voiture, il faut des roues rondes », tranche-t-il.
Depuis, dans les piles technologiques plus modernes, MapReduce a été remplacé par Apache Spark ou d’autres technologies similaires, tandis que le stockage objet succède à HDFS.
« Apache Hadoop est loin d’être mort ; [le projet] est encore très actif », affirme Merv Adrian, analyste chez Gartner, dans un billet de blog publié en mai 2022.
Selon lui, la disponibilité de la version 3.3 qui a vu sa première sortie en juillet 2020 le prouve, tout comme les mises à jour versées dans ce stream. « Il [Hadoop] est toujours défini sur son site Web Apache par MapReduce, HDFS et YARN, qui ont une valeur continue et des bases installées importantes », poursuit-il.
Merv AdrianAnalyste, Gartner
« Mais les prochaines étapes sont en vue », confirme-t-il. « MapReduce n’est plus un outil privilégié. HDFS voit de nombreux concurrents au niveau de la couche de stockage. YARN n’est pas vraiment présent ailleurs, tandis que d’autres outils open source pour la gestion des ressources sont en concurrence dans un paysage sur site qui s’amenuise. Il n’est plus question d’Hadoop, il est question de ce qui va suivre ».
Ces approches attirent aussi les responsables du projet TDP et les membres du TOSIT. « Je pense qu’Hadoop n’est pas mort, il va vivre avec d’autres technologies », affirme Mohamed Mehdi Ben Aissa. « L’écosystème est riche : en intégrant des technologies telles que le stockage objet et Kubernetes, Hadoop aura véritablement sa place ».
Ces technologies nées dans le cloud sont désormais disponibles sur site. De nombreux fournisseurs proposent des solutions logicielles compatibles avec S3, tandis que Kubernetes a le droit à ses distributions hybrides et « Edge ». Certaines entreprises, dont la Société Générale ou Zalando passent par des systèmes de distributions de requêtes comme Trino et sa distribution commerciale Starburst afin de cibler les buckets rassemblant des données au format open source.
« Les grandes banques françaises ont des besoins de fédération de données », illustre Victor Coustenoble, Solutions Architect Manager chez Starburst.
« Dans un avenir proche, elles devront faire évoluer leur vision actuelle d’un “single source of truth”, vers une vision “single point of access”. Elles nous disent vouloir faire évoluer le paradigme du “tout dans Hadoop” dont on a atteint les limites organisationnelles, financières et pratiques », estime-t-il.
Victor CoustenobleSolutions Architect Manager, Starburst.
« Elles conservent uniquement les formats de données open source : Parquet, Delta Lake, Iceberg, etc. Dans le cloud, les données sont stockées dans GSC, ADLS, S3. Sur site, ce seront vraisemblablement des infrastructures qui exposent une interface S3 : Cloudian, MinIO, Ceph.io, Scality, ou encore EMC Isilon », poursuit-il.
« Ensuite, avec Spark ou Trino en Kubernetes, elles attaquent les données là où elles résident, en découplant davantage le calcul et le stockage, pour s’affranchir de plus en plus des contraintes du “YARN management” spécifique à Hadoop ».
Au-delà de contraintes techniques, Victor Coustenoble observe une tendance de fond motivée par des enjeux financiers.
« C’est un sujet de discussion récurrent avec nos clients. À cause des coûts de licences, des coûts de l’infrastructure. On ne peut plus avoir 400 nœuds utilisés à 10 % et toute la gestion que cela représente en matière de réseau, de maintenance et de personnes mobilisées. Ce n’est plus tenable ».
L’écosystème demeure
Surtout, l’architecte Data & Cloud chez la DGFIP souligne là un élément important pour Merv Adrian : Hadoop n’est pas une technologie, mais un écosystème.
Ce point est mal compris et souvent masqué par des effets de bord marketing. Les offres, auparavant rattachées au monde Hadoop, sont dorénavant dispersées, « ce qui rend un peu plus difficile le suivi de ce que l’on appelait autrefois Hadoop », considérait l’analyste en 2020.
TDP est donc une nouvelle bulle dans cet écosystème qui, pour l’instant, repose sur les briques originelles d’Hadoop. Toutefois, l’équipe en charge du projet prévoit d’effectuer des ajouts, notamment en intégrant Apache Airflow.
Dans un premier temps, EDF et la DGFIP prévoient de déployer TDP en production avant la fin de l’année 2023. Lors de Big Data AI Paris, les responsables du projet invitaient les contributeurs et les ESN à les rejoindre dans l’aventure. De son côté, la DGFIP mènera un appel d’offres pour un marché public interministériel afin de trouver l’entreprise qui assurera le support de TDP.
Reste à savoir à quel horizon la Trunk Data Platform sera maintenue.
Interrogé par LeMagIT, David Worms, fondateur et PDG d’Adaltas, estime la durée de vie initiale du projet TDP à cinq ans, un engagement qui pourra être prolongé au besoin des utilisateurs et des contributeurs. De son côté, Édouard Rousseaux, indique que le groupe prévoit de maintenir son installation Hadoop au moins jusqu’en 2028, soit six ans.
Article mis à jour avec les propos de Victor Coustenoble, Solutions Architect Manager chez Starburst.