Avec ODP, le monde Hadoop tente de devenir un composant SaaS
Si L’Open Data Platform vise à proposer un socle Hadoop standard, elle n’inclut pas la couche de compatibilité SQL, qui pourtant pourrait faciliter son usage et sa prise en main par les entreprises.
Petit à petit, Hadoop, la base de données au cœur des projets Big Data, chemine vers une solution prête à l’emploi en Cloud. « Nous créons l’alliance ODP (Open Data Platform) pour qu’Hadoop soit normalisé, pour que les éditeurs sachent sur quoi exactement ils doivent certifier leurs applications. Et nous rachetons SequenceIQ parce que leurs outils CloudBreak et Periscope permettent de packager un cluster Hadoop afin de le mettre en un clic dans un Cloud, tout en gérant ensuite l’élasticité des ressources », a ainsi lancé Shaun Connolly, responsable de la stratégie d’Hortonworks, lors du salon Hadoop Summit 2015 qui se tient cette année à Bruxelles. Cette stratégie de simplification tombe à point nommé dans un contexte où Forrester prédit que toutes les entreprises adopteront Hadoop dans les prochaines années, alors que la solution est, en l’état, un salmigondis de couches techniques issues d’une multitude de fournisseurs et auquel plus personne ne comprend rien (voir encadré).
ODP standardise Hadoop...
« Savoir que l’infrastructure Big Data va tourner sur du Cloudera ou du Hortonworks HDP est quelque chose de totalement secondaire par rapport à l’enjeu business qu’on veut résoudre ! Pour les entreprises, il est beaucoup plus intéressant de s’appuyer sur une offre Hadoop-as-a-Service que de s’embêter à monter soi-même une infrastructure », commente Olivier Rafal, Principal Consultant chez Pierre Audoin Consultants. Une analyse que rejoint Mathias Coopmans, directeur des solutions chez SAS : « l’inconvénient d’Hadoop est que tous les morceaux changent très rapidement, ce qui ajoute de l’inconnu et crée une inertie autour des composants que l’on a pu choisir de manière arbitraire au premier chef. C’est l’inverse de ce qui devrait se produire : on veut au contraire avoir un Big Data évolutif avec des composants interchangeables », analyse Mathias Coopmans. SAS, qui propose des outils graphiques d’analyses de données sur site, projette désormais de vendre ses solutions en mode SaaS. Et il estime qu’ODP devrait permettre de simplifier ses négociations avec les hébergeurs de Cloud.
A date, outre HortonWorks, IBM et Pivotal qui proposent chacun une distribution Hadoop dite compatible ODP, une quinzaine d’acteurs ont rejoint l’alliance ODP et certifient que leurs solutions ou leurs services seront compatibles avec cet Hadoop-là. On y trouve SAS, VMware, EMC, InfoSys, Capgemini ou encore Teradata.
... sans standardiser la couche SQL
Problème, ODP ne contient pas non plus les outils de SequenceIQ. D’ailleurs, ODP est une distribution d’Hadoop si basique qu’elle se contente de proposer le stockage en cluster HDFS, le système de gestion des données YARN (alias MapReduce 2.0) et l’environnement d’administration Ambari. Un comble pour Olivier Rafal : « ils n’y ont pas mis la couche de compatibilité SQL. En matière de base de données, les entreprises ont des compétences SQL et pas Hadoop. Or, il y a une dizaine de variantes de couches SQL dans Hadoop. C’est là, qu’il y avait un vrai besoin de standardisation », dit-il. Tim Hall, vice-président en charge des produits chez HortonWorks élude la question : « c’est un avantage de pouvoir choisir soi-même le moteur SQL selon les charges de travail ou les types de traitement que vous voulez faire. » En coulisse, il révèle néanmoins que l’implémentation Hive proposée dans HDP sera compatible avec la norme SQL:2011 avant la fin 2015. Et que, par conséquent, il espère bien que Hive devienne un standard de facto.
En pratique, HortonWorks a retravaillé l’outil d’administration Ambari pour qu’il fonctionne avec des couches interchangeables, afin de privilégier les particularités dont chaque éditeur d’une distribution Hadoop voudrait se prévaloir. « Notre enjeu est surtout de masquer la complexité au travers d’interfaces graphiques agnostiques. Et, en ce sens, nous avons mis dans ODP un framework Ambari Views sur lequel pourront se connecter les développeurs d’applications tierces », explique Tim Hall.
Un marché qui se cherche encore
Reste que c’est exactement ce que propose le concurrent Cloudera. « ODP est essentiellement un coup marketing pour Hortonworks, lequel ne dispose pas des moyens marketing de son concurrent Cloudera, lequel a obtenu une levée de fonds de 900 millions de dollars l’année dernière. Pour les partenaires d’ODP, cela va leur servir à pousser leurs propres développements sans avoir à investir dans leur propre distribution », estime Olivier Rafal. Selon lui, aucun fournisseur de distribution Hadoop ne prédomine vraiment en France.
A date, les seuls qui ont véritablement mis Hadoop en production sont les opérateurs de télécommunication. « Toutes les autres entreprises en sont toujours à faire des pilotes pour voir comment ils pourraient s’en servir », estime Mathias Coopmans. Selon lui, les entreprises voient dans Hadoop un moyen peu cher de stocker des données en se donnant la possibilité d’y faire des recoupements d’informations dans un second temps.
Sur le salon, tous les utilisateurs rencontrés avouent installer des clusters Hadoop, essentiellement à partir des distributions gratuites, dans des Cloud IaaS publics (chez Amazon AWS, Microsoft Azure ou encore Google Cloud Engine) pour apprendre à s’en servir. « Les gens des données et ceux des métiers regardent les avantages que pourrait apporter Hadoop par rapport à nos anciennes bases SQL. Une fois que l’on aura une idée précise, il restera encore à allez voir la DSI pour lui demander d’implémenter une telle solution », raconte Hugues LeBars, Chief Data Officer de Neopost.