EMC Isilon et Hadoop : retenez-moi ou je fais un MapR...

Empruntant une page de la stratégie de MapR son partenaire Hadoop historique, EMC a greffé sur OneFS, le système de gestion de fichiers en cluster de ses appliances de stockage Isilon, une couche d'émulation HDFS, le système de fichiers d'Hadoop. Un cluster Isilon peut désormais être utilisé pour stocker les données d'un cluster de calcul Hadoop. Une petite révolution...

Chez EMC, l'éléphant 
Hadoop est bleu...

EMC continue de lorgner sur le marché du Big Data et notamment sur le marché Hadoop. Le constructeur, qui disposait déjà d’un pied dans Hadoop via Greenplum vient d’en mettre un second en annonçant le « support » du système de gestion de fichier d’Hadoop, HDFS, sur ses systèmes de stockage en cluster Isilon.

Jusqu’au début 2011, Greenplum était connu pour ses appliances propriétaires de traitement de données analytiques , mais sous a bannière d’EMC, la firme a progressivement pris le virage du « Big Data » à la sauce Hadoop, le framework de traitement analytique open source né chez Yahoo.

EMC et Hadoop : un engagement qui va croissant

Lors d’EMC World 2011, EMC a ainsi annoncé son intention de fournir une implémentation d’Hadoop sur les appliances greenplum. Pour être précis, le constructeur a annoncé une distribution open source communautaire, baptisée greenplum HD Community Edition, dérivée du code de la fondation Apache, et une seconde distribution, commerciale, orientée « entreprises », dérivée de la distribution de MapR, greenplum HD Entreprise Edition. Deux distributions disponibles depuis la rentrée 2011.

Le souci de cette approche duale est que la version communautaire et open source s’appuie sur le système de gestion de fichiers libre HDFS (Hadoop File System), tandis que la déclinaison entreprise s’appuie sur le système de fichiers propriétaire de MapR. Ce filesystem est la principale innovation du partenaire d'EMC et il s’agit d’une innovation importante.

Imaginé par le fondateur du système de gestion de fichiers en cluster de Spinnaker (racheté par NetApp pour devenir le cœur du Cluster Mode des baies NetApp), le filesystem de MapR pallie les principaux défauts d’HDFS et notamment les risques de panne liés à l’unicité du nœud gérant les métadonnées de HDFS (name node), qui est un « single point of failure ». Le système de gestion de fichiers de MapR est aussi accessible via des protocoles standards comme NFS, intègre des fonctions avancées de protection comme les snapshots ou la réplication. Bref, par rapport à HDFS, il fournit des bénéfices fonctionnels non négligeables (sans parler de l’aspect performances).

Dernier atout, l’utilisation de ce filesystem est transparente pour les applications de la pile Hadoop, MapR ayant développé une couche d’abstraction permettant d’y accéder via les API HDFS. Une stratégie « Canada Dry », qui permet de bénéficier des atouts d’un filesystem plus abouti, tout en ayant l’impression d’utiliser HDFS. Seul « petit » problème : dans un environnement Hadoop largement Open source, MapR fait tâche, son filesystem étant totalement propriétaire.

Jusqu'alors le Big Data n'était pas le meilleur ami du "Big Storage"

Les clusters NAS Isilon vont hériter du support d'HDFS par simple mise à jour (gratuite) de leur logiciel système.

Au-delà des affrontements entre partisans du libre et du propriétaire, le développement des filesytems en cluster comme HDFS ou MapR pose un autre problème aux géants du stockage : jusqu’alors les utilisateurs d’Hadoop ont appris à se passer des baies de stockage qui ont fait la fortune des géants comme EMC ou NetApp. Chaque nœud d’un cluster Hadoop est en effet à la fois un nœud de calcul et un nœud de stockage et n’a pas besoin de recourir à du stockage partagé. Pire, la progression des filesystem tels que ceux de MapR est à terme une menace pour les systèmes de stockage établis, MapR fournissant pour l’essentiel l’ensemble des fonctions de protection avancées des baies…

Avec les dernières innovations apportées à ses systèmes de stockage Isilon, EMC a peut-être trouvé un moyen de changer la donne, notamment pour les déploiements Hadoop en entreprises. 

Intégrer le support de HDFS directement dans Isilon

L’idée d’EMC est à la fois simple et brillante et elle n’est pas sans rappeler ce qu’a réalisé MapR. Rappelez-vous que ce dernier a développé son propre système de fichier en cluster et a développé une couche d’abstraction pour le faire apparaître comme un file system HDFS. Et bien EMC a fait de même au-dessus du système de gestion de fichiers de ses appliances de stockage en cluster Isilon. En greffant une couche d’abstraction HDFS sur OneFS, Isilon propose aux clients d’EMC d’utiliser ses systèmes de stockage pour leurs besoins de stockage, en conjonction avec des nœuds de calcul utilisant la distribution communautaire de greenplum. Bref, pour la première fois, EMC propose une solution Hadoop séparant clairement calcul et stockage.

Les bénéfices annoncés par EMC sont les mêmes que ceux mis en avant par MapR à savoir la sûreté que procure l’utilisation de OneFS en lieu et place d’HDFS (notamment parce que les metadonnées sont distribuées et non pas centralisées sur un unique nœud), ainsi que la possibilité de tirer parti des fonctions riches de OneFS (support multiprotocole – NFS, CIFS…-, Snapshots, réplication…). Un autre bénéfice est la mutualisation des ressources, un système de stockage Isilon pouvant être partagé entre de multiples applications. Enfin EMC met en avant une qualité inédite : la dissociation entre la partie calcul et la partie stockage.

Dans un cluster Hadoop, les nœuds doivent être largement identiques et le ratio entre puissance de calcul et capacité de stockage est fixe, ce qui peut mener à des gaspillages de ressources lorsque les besoins de calcul et de stockage sont déséquilibrés. Avec la solution proposée par Isilon, le stockage est géré par l’appliance de stockage et l’entreprise peut dimensionner la partie nœuds de calcul séparément. EMC met aussi en avant l’efficacité accrue du stockage que permet le filesystem Isilon. Avec une implémentation HDFS, chaque donnée est répliquée sur trois nœuds différents pour des raisons de protection de données. OneFS est bien plus efficace pour une sécurité équivalente.


Quel avenir pour MapR chez EMC ?

La question que pose immédiatement la stratégie d’EMC est bien évidemment celle de la pérennité de la distribution de MapR au catalogue d’EMC. Pour Michael Maxey, le directeur du marketing produits de Greenplum, MapR a toujours un rôle à jouer au catalogue d’EMC mais le focus de Greenplum est clairement sur la distribution Open Source. La solution Isilon visera notamment les environnements intermédiaires, qui font leurs premiers pas avec Hadoop et cherchent une solution tout en un simple d’emploi. La distribution de MapR, rebaptisée Greenplum MR, se voit quant à elle, assigner la mission de séduire les grands clients souhaitant déployer des clusters Hadoop comportant un très grand nombre de nœuds, tout en bénéficiant des avantages du filesystem développé par MapR.

Le premier pari d’EMC est qu’avec ses trois solutions, les appliances Greenplum, les clusters intermédiaires autour d’Isilon, et la distribution Greenplum MR, il peut désormais répondre aux besoins de l'ensemble des clients quels que soit leur taille ou leurs moyens financiers. Surtout EMC espère séduire des franges de clients qui, jusqu’alors, répugnaient à se lancer dans Hadoop du fait de sa complexité ou du fait de certaines de ses caractéristiques, perçues comme autant de fragilités. Le second pari, bien sûr, est de doper un peu plus les ventes de clusters Isilon du fait de la « greffe HDFS » qui a été appliquée à OneFS. Au passage EMC s'affranchit aussi du débat entre propriétaire et open source, qui fait rage à propos de l'approche semi-propriétaire de MapR. Pour nombre d'utilisateurs, une baie de stockage, objet hybride entre matériel et logiciel embarqué, n'a pas de religion, alors que le file system propriétaire de MapR, 100% logiciel, est vu comme une intrusion dans un code open-source par ailleurs "pûr". Ainsi va la vie dans le monde cruel de l'informatique et des communautés libres...

A lire aussi sur LeMagIT :

Pour approfondir sur Administration et supervision du Cloud