Hadoop : un engouement pour une technologie qui doit encore évoluer

Hadoop, le framework de traitement de données en volume en environnement distribué, trouve de plus en plus refuge chez les éditeurs et dans les entreprises, motivés notamment par ses coûts réduits et sa flexibilité. Le jeune Hadoop doit encore structurer un peu plus son eco-système.

par

Cyrille Chausson, Rédacteur en Chef

Publié le: 01 déc. 2011

"Le Big Data est assurément un phénomène mondial", se félicite Mike Olson CEO de Cloudera au sortir de la conférence Hadoop World qui s'est tenue à New York les 8 et 9 novembre dernier. Il faut dire que cette société, qui développe sa propre déclinaison de Hadoop - également organisatrice de l'événement - surfe sur une des technologies les plus en vue dans le monde du Big Data.

Si cette 3e édition d'Hadoop World, avec ses 1500 participants, montrait l'intérêt des éditeurs et des entreprises, c'est certainement parce que Hadoop aborde un pan clé du Big Data : celui du stockage et de la distribution des traitements de données non structurées et semi-structurées vers des clusters (en se reposant notamment sur son système de fichier HDFS). Un volet - ce n'est pas le seul - du "stack" Big Data vers lequel lorgnent de nombreux d'éditeurs. Leur motivation : adresser la multiplication des données générées en dehors de l'entreprise. Cyril Meunier, analyste chez IDC, nous parle des phénomènes des média sociaux, par exemple, avec lesquels les entreprises tentent de jongler. Le marché du stockage lié à ces données devraient atteindre 2 Md$ en 2015, au niveau mondial. Sans parler des données liées à la mobilité, aux tablettes et bien sûr au Saas, dont le modèle a ouvert des passerelles vers des données placées à l'extérieur de l'entreprise.

Editeurs et utilisateurs y adhérent, presque logiquement. IBM, Sybase, Informatica, Greenplum, Yahoo - avec désormais Hortonworks -, Oracle, et Microsoft ont décidé d'aligner certaines de leurs offres sur Hadoop. Entre temps, la NSA est devenue un contributeur clé dans la communauté du projet.

Si Hadoop n'est certes pas la seule brique technologique à adresser le stockage des données non structurées, celle solution se distingue notamment par son côté Open Source, à coût plus modeste. "Hadoop contribue à modifier le modèle économique du Big Data", nous confirme James Markarian, vice président exécutif et directeur technique d'Informatica, soulignant ainsi que le coût reste l'un des critères n°1 dans l'adoption du framework. Il cite également l'exemple d'Ebay qui entend remplacer son infrastructure en place par un environnement reposant sur Hadoop (le projet Cassini). Mais pas uniquement. Selon lui, le framework est naturellement plus flexible : "Hadoop permet d'étendre plus facilement des environnements Oracle, par exemple, que d'autres technologies", souligne-t-il. Informatica, de son côté, a sorti début novembre un parseur pour Hadoop (Informatica HParser) qui permet de transformer des données complexes non-structurées en format structuré ou semi-structuré dans Hadoop, afin de les rendre exploitables dans des tableaux analytiques, par exemple.

Un manque de compétences

Reste que "nous n'en sommes qu'au début de l'histoire", nuance James Markarian. Hadoop n'a pas encore résolu tous ses problèmes. Il cite notamment un modèle de sécurité et des technologies adjacentes encore immatures. Autre écueil également pointé du doigt, le manque de compétences. Il évoque alors une pénurie de développeurs sur le marché. "Des entreprises sont aujourd'hui prêtes à payer très cher pour s'offrir un profil Hadoop, mais elles ne trouvent pas. Yahoo, par exemple, commence à travailler avec des universités pour améliorer le niveau des compétences", affirme-t-il.

A cela pourrait également s'ajouter le manque de standardisation du framework. Un point que soulevait James Kobielus, analyste chez Forrester, rappelant l'absence, par exemple, d'architecture de référence de cluster Hadoop, de test de compatibilité ou encore de certification. Un frein, selon lui, aux déploiements dans les entreprises, "qui risquent [aujourd'hui, NDLR] gros" à implémenter la solution.

Hadoop : un engouement pour une technologie qui doit encore évoluer

Hadoop, le framework de traitement de données en volume en environnement distribué, trouve de plus en plus refuge chez les éditeurs et dans les entreprises, motivés notamment par ses coûts réduits et sa flexibilité. Le jeune Hadoop doit encore structurer un peu plus son eco-système.

Pour approfondir sur Outils décisionnels et analytiques

Le catalogue de données : à la recherche de l’ordre perdu

Quels critères pour bien choisir son moteur SQL-On-Hadoop

Quand utiliser Hadoop... et quand s'en passer ?

L’Hebdo de l'IT : ce qu'il fallait retenir de la semaine du 6 avril