Hadoop fêtera la nouvelle année en version 1.0.0

Les développeurs du framework d'analyse de données open source ont annoncé cette semaine la disponibilité de la version 1.0 d'Hadoop. Une première version "officielle" après six années de développement autour de la technologie.

 unknown
Hadoop est désormais en version 1.0.0

Les développeurs d'Apache Hadoop ont finalement publié cette semaine la version 1.0.0 du "Big Data" du framework d'analyse de données open source. Cette première version "officielle" succède à la version 0.22.0. Elle devrait servir de base à de nouvelles moutures chez les principaux fournisseurs de distributions Hadoop comme HortonWorks et Cloudera, mais aussi le plus propriétaire MapR. Ce dernier, dont les travaux servent de base à la distribution Hadoop d'EMC, se distingue de ses concurrents par le fait qu'il a développé son propre système de fichier en cluster en lieu et place d'HDFS, le filesystem "officiel" d'Hadoop. Ce filesystem propriétaire apporte, selon MapR, de nombreux bénéfices comme le support des accès NFS, mais aussi des performances et une résilience bien supérieure à celle de HDFS (avec notamment la distribution des metadonnées sur l'ensemble des noeuds afin d'éviter les points de faille).

Plus de sécurité et une API REST-HTTP pour le filesystem HDFS

Selon la fondation Apache, cette version 1.0.0 d'Hadoop apporte de nombreuses améliorations à HDFS et MapReduce (les deux composants au coeur d'Hadoop) en termes de sécurité (avec par exemple une authentification basée sur Kerberos), mais aussi de substantiels gains en matière de performance. WebHDFS, une API HTTP et REST pour le filesystem HDFS, permet aussi d'accéder via le protocole HTTP au système de fichiers Hadoop. De nombreux bugs ont aussi été éliminés depuis la version 0.20.

Notons que la sortie d'Hadoop 1.0.0 s'accompagne aussi de l'arrivée d'HBase 0.90.5 (l'équivalent dans le monde Hadoop de BigTable chez Google) qui corrige 81 problèmes identifiés dont 5 bloquants et 11 critiques.

D'importants travaux de développement se poursuivent

Cette version 1.0.0 n'est toutefois qu'une étape dans le développement d'Hadoop. La version 0.23 actuellement en version alpha apportera par exemple des capacités de fédération de clusters HDFS (par exemple pour fédérer des clusters utilisant des noeuds différents). Elle devrait aussi éliminer certaines des restrictions actuelles en matière de name node d'HDFS. L'autre nouveauté importante sera l'arrivée d'une nouvelle mouture de MapReduce (nom de code YARN), qui séparera la gestion de ressources de la gestion des jobs (job scheduling). Cette mouture devrait notamment se traduire par des gains importants en matière de performances, avec des gains moyens de 100% sur l'ensemble des tâches.

A lire aussi sur LeMagIT :

Etat du monde IT : le Big Data, une offre qui se forme

Pour approfondir sur Outils décisionnels et analytiques