Hadoop : l'éléphant libre qui agite le monde du cloud et du Big Data
Après une année 2011 qui aura vu un fort intérêt pour Hadoop, le framework distribué d'analyse de données devrait connaitre une forte adoption dans les entreprises. Au croisement des technologies Cloud, HPC et analytiques, Hadoop a il est vrai de nombreux atouts pour séduire.
L'année 2011 a vu l'émergence d'un nouveau champion dans le monde de la BI, Hadoop, un framework distribué d'analyse de données né chez Yahoo, mais inspiré de concepts théorisés par Google. Hadoop est aujourd'hui utilisé par de nombreux géants de l'internet pour leurs besoins massifs d'analyse de données (les différents clusters Hadoop de Yahoo utilisent près de 10 000 serveurs, et FaceBook en fait aussi un usage massif), mais il commence aussi à devenir populaire dans le monde des entreprises dans des secteurs comme la distribution, les banques, les télécoms…
Venu du monde libre, Hadoop s'appuie sur des architectures distribuées typiques des environnements HPC ou cloud et fonctionne sur des clusters massifs de serveurs x86 qui fournissent à la fois des capacités de calcul et de stockage. La couche stockage repose par exemple sur un système de fichier en cluster baptisé HDFS qui a la charge de gérer les teraoctets ou petaoctets de données réparties entre les nœuds. La partie calcul est confiée à des composants comme MapReduce, un framework de programmation distribué. Encore relativement jeune, Hadoop fait l'objet de développements intenses, portés notamment par trois éditeurs qui se sont donnés pour mission de rendre la technologie "consommable" par de grandes entreprises. Ces trois sociétés sont à Hadoop ce que Red Hat, Suse et Ubuntu sont à Linux. Tout en contribuant massivement aux évolutions du code du framework libre, elles axent leurs efforts sur le packaging de la technologie - en produisant des distributions Hadoop "prêtes à l'emploi" -, et se distinguent les unes des autres en greffant sur le cœur open source des briques plus ou moins propriétaires afin de simplifier l'administration du framework ou de doper ses performances.
Cloudera : la première distribution commerciale du marché
La plus connue des distributions Hadoop est sans doute Cloudera qui a été la première à faire parler d'elle en concoctant une distribution entreprise du framework. Basé dans la Silicon Valley et à San Francisco, Cloudera compte parmi ses dirigeants des pionniers de Hadoop chez Yahoo. La firme s'est récemment illustrée en signant un accord avec Oracle pour la fourniture de sa distribution dans l'appliance analytique exalytics du constructeur. Cloudera avait précédemment signé des accords pour la fourniture de sa distribution à Dell et NetApp. Selon Cloudera, l'adoption rapide Hadoop s'explique par ses attributs uniques par rapport aux technologies traditionnelles d'analyse de données.
Comme l'explique Charles Zedlewski, le Vice-président produits de la firme, "mon point de vue est que pour qu'une technologie radicalement nouvelle soit adoptée par les entreprises elle doit être 10 fois meilleures que les technologies existantes. Si elle n'est que deux fois meilleure, les entreprises préfèrent conserver les technologies qu'elles connaissent et qu'elles maîtrisent. (…) Hadoop brille car il est dix fois plus évolutif ("scalable") que les technologies en place, dix fois plus économique et surtout dix fois plus flexible. Il est bien sûr plus mauvais que les technologies en place sur bien des domaines. Il est moins mature, peu d'utilisateurs sont formés à son utilisation et a un écosystème d'applications plus limité. Mais pour certains cas d'usage, Hadoop n'a pas de concurrent ce qui explique son adoption rapide".
Quelles caractéristiques font d'Hadoop un tel succès ? "Historiquement pour obtenir de meilleurs résultats à partir d'un jeu de données, les entreprises devaient utiliser des algorithmes plus sophistiqués, ce qui veut dire plus de développement et une armada de docteurs en statistiques et en mathématiques pour imaginer ces algorithmes. Cela prend du temps et est coûteux" explique Charles Zedlewski. Hadoop aborde le problème différemment. Avec Hadoop, au lieu d'attaquer le problème avec plus d'ingénieurs, vous augmentez tout simplement la taille de votre jeu de données. La tendance actuelle dans le monde du traitement de données et de l'apprentissage est que dans la plupart des cas, l'utilisation de jeux de données plus volumineux produit de meilleurs résultats que l'usage d'algorithmes plus sophistiqués."
C'est particulièrement vrai pour des applications comme l'analyse de risques, l'analyse de menaces, l'analyse de fraudes ou de crédit. De plus pour ce type d'application la flexibilité d'Hadoop et reine. Il n'est en effet pas nécessaire que les données utilisées se conforment à des schémas prédéfinis, contrairement aux datawarehouse traditionnels.
Cloudera s'appuie sur un modèle 100 % open source et tire l'essentiel de ses revenus de ses activités de conseil, d'intégration et de support.
MapR : Un modèle propriétaire et l'aval d'EMC
MapR, basé à San Jose, a fait un choix radicalement différent. La société, fondée il y a un peu plus de trois ans, a fait le choix de combiner un ensemble de technologies propriétaires avec certaines portions du framework libre Hadoop pour produire sa distribution. L'éditeur a ainsi développé sa propre couche de stockage (baptisée MapR Lockless Storage Services) en lieu et place du système de fichiers HDFS, habituellement utilisé par les distributions Hadoop - c'est d'ailleurs cette caractéristique qui a notamment séduit EMC qui a conclu un accord de revente stratégique avec MapR.
Ce filesystem en cluster, qui maintient une compatibilité totale avec les API d'HDFS, permet à MapR de revendiquer des caractéristiques uniques tels qu'une plus grande résilience (la fonction de "namenode" est distribuée entre les nœuds), le support des snapshot, du mirroring et du partitionnement, mais aussi un accès natif en mode NFS au filesystem. Une autre nouveauté est l'aptitude à verser des données en continu dans le file system, contrairement à HDFS qui fonctionne en mode append (ou ajout). On peut ainsi envisager de lancer des traitements en quasi-temps réel au fur et à mesure de l'ingestion de nouvelles données.
MapR revendique enfin des performances très supérieures à celles de ses concurrents. La distribution de l'éditeur est proposée dans une édition gratuite mais "limitée" - certaines fonctions de sont pas accessibles) baptisée M3. La déclinaison entreprise, qui inclut l'ensemble des fonctions ainsi que le support est quant à elle baptisée M5 (la fascination des fondateurs pour l'ingénierie d'une certaine marque automobile bavaroise ne serait pas étrangère au choix de ces appellations…).
HortonWorks : né de la division Hadoop de Yahoo
Enfin, le dernier arrivé sur la scène Hadoop, HortonWorks, n'est rien de moins qu'une "spin-off" de la division Hadoop de Yahoo, où est né Hadoop. Comme Cloudera, HortonWorks s'appuie sur un modèle 100 % open source pour sa distribution. Arrivé en retard sur le marché commercial, HortonWorks ne devrait finalement livrer sa première distribution, baptisée HDP1 qu'au premier trimestre 2012. HDP1 s'appuiera sur le cœur Hadoop 0.20.205 (ui est la base de la première version officielle du framework).
Mais la firme entend se rattraper rapidement et prévoit une version 2, baptisée HDP2 pour le troisième trimestre. Cette version de la distribution s'appuiera sur Hadoop 0.23. Pour l'instant encore en version Alpha, cette version d'Hadoop devrait probablement servir de base à la prochaine génération du framework. Elle apportera par exemple des capacités de fédération de clusters HDFS (par exemple pour fédérer des clusters utilisant des nœuds différents). Elle devrait aussi éliminer certaines des restrictions actuelles en matière de name node d'HDFS. L'autre nouveauté importante sera l'arrivée d'une nouvelle mouture de MapReduce (nom de code YARN), qui séparera la gestion de ressources de la gestion des jobs (job scheduling). Cette mouture devrait notamment se traduire par des gains importants en matière de performances, avec des gains moyens de 100% sur l'ensemble des tâches.
Un écosystème en pleine explosion
Si l'agitation est palpable dans le monde des distributions Hadoop, c'est aussi le cas pour l'écosystème d'éditeurs autour de la distribution. Tous les géants de l'industrie ont ainsi annoncé un support d'Hadoop. On le notait précedemment, Dell, Netapp et Oracle ont signé avec Cloudera tandis qu'EMC optait pour MapR. Microsoft, de son côté prévoit d'ajouter le support d'Hadoop à Azure au premier semestre dans le cadre d'une collaboration avec HortonWorks. Mais le plus étonnant est sans doute l'enthousiasme suscité par la technologie chez les géants du décisionnel et des outils analytiques comme GreenPlum, Teradata, Informatica, Vertica (HP) et chez les spécialistes du décisionnel libre comme Talend, Jaspersoft ou Pentaho. Autant de fournisseurs qui en interfaçant leurs outils à Hadoop contribuent à une maturation rapide de l'écosystème d'outils autour de la distribution.
En savoir plus sur le site de notre partenaire LeMagIT :
Big Data : Oracle s’allie à Cloudera pour une appliance un peu chère
Comscore migre son environnement Big Data basé sur Cloudera vers MapR
Hadoop fêtera la nouvelle année en version 1.0.0
Hadoop : un engouement pour une technologie qui doit encore évoluer
Big Data : Microsoft rapproche Azure et Windows Server de Hadoop
Avec Hortonworks, Yahoo devient fournisseur de solutions pour le Big Data