Résoudre les difficultés posées par Hadoop au moyen d’un stockage en cloud privé

En revenant sur les mécanismes inhérents à Hadoop, cet article expert explique la nécessité de disposer d'une solution de stockage évolutive, en cloud privé. Pourquoi cela est-il utile ?

Pourquoi utiliser un stockage en cloud privé avec Hadoop ? Cette plate-forme n’est-elle pas conçue pour utiliser des serveurs et des ressources de stockage de masse économiques ? En quoi l’intégration d’un stockage en cloud privé pourrait-elle résoudre les problèmes posés par Hadoop ? Pour répondre à ces questions, quelques connaissances préalables sur le fonctionnement d’Hadoop s’imposent…

Hadoop est le projet open source d’Apache destiné à l'analyse de données non structurées. Il est conçu pour fournir des informations pratiques et exploitables portant sur de grands volumes de jeux de données essentiellement non structurés. Mais il peut également apporter les mêmes informations pour des données structurés en volume, ou encore pour des combinaisons de ressources structurées/non structurées. C’est toute la valeur d’Hadoop que de tirer des informations intéressantes de données qui, traditionnellement, n’étaient pas facilement exploitables. Si sa capacité à passer au crible les péta-octets d’informations reste inégalée, ce qui fait vraiment la différence avec Hadoop, c’est qu’il n’est pas nécessaire d’identifier un résultat attendu avant de lancer la recherche. En effet, Hadoop établit des relations que personne n’avait même envisagées. C’est aujourd’hui un puissant outil tant pour l’informatique que pour l’activité de l’entreprise.

Le concept fondamental d’Hadoop réside dans la manipulation, le traitement et l’analyse de très grands jeux de données (qui se chiffrent en péta-octets ; Po), données qui sont alors automatiquement réparties dans des espaces de stockage et des lots de traitement sur un ensemble de clusters de serveurs à bas coûts. D’un seul serveur à plusieurs milliers de machines, Hadoop est une solution évolutive qui embarque une capacité de tolérance aux pannes. Détection des défaillances et automatisation lui confèrent une excellente résistance.

Derrière Hadoop se trouvent deux technologies importantes : MapReduce et le HDFS, le système de fichiers d’Hadoop.

 MapReduce constitue l’infrastructure qui identifie et attribue les lots de traitement aux nœuds d’un cluster Hadoop. MapReduce exécute ces lots en mode parallèle, ce qui permet à leur traitement et leur analyse de porter sur de grandes quantités de données en très peu de temps. HDFS, quant à lui, rassemble et relie tous les nœuds d’un même cluster Hadoop en un seul grand système de fichiers. Comme il arrive qu’il y ait défaillance, HDFS garantit la fiabilité en répliquant les données à l’échelle de plusieurs nœuds.

Mais alors, quel avantage le stockage en cloud privé présente-t-il pour Hadoop ? Hadoop est un programme évolutif qui rencontre actuellement trois difficultés majeures que les fournisseurs de solutions de stockage en cloud privé pourraient aplanir, voire éradiquer :

  1. HDFS fournit un système de fichiers extrêmement résistant et bien documenté. Malheureusement, son NameNodeunique est un point de défaillance identifié qui réduit la disponibilité de la solution. Le NameNode coordonne l’accès aux données dans le système de fichiers. Pour les clusters Hadoop qui recourent à des charges interactives (HBase), à l’extraction, la transformation et le chargement en temps réel ou à des processus métier traités en lots, une panne du NameNode HDFS peut poser un sérieux problème. Lorsqu’elle se produit, c’est l’immobilisation : les utilisateurs sont mécontents et la productivité s’en ressent. La communauté Hadoop et Apache travaillent aujourd'hui d'arrache-pied pour développer un NameNode haute disponibilité. Le produit devrait être prêt avec Hadoop 2.0. Dans le même temps, plusieurs fournisseurs de solutions de stockage en cloud privé, tels que NetApp avec FAS et V-Series, EMC avec Isilon, et Cleversafe et sa technologie Dispersed Storage, intègrent à leurs produits de stockage un correctif pour NameNode.
  2. Le deuxième inconvénient d’Hadoop auquel le stockage en cloud privé peut apporter une réponse est légèrement pire que le premier. HDFS effectue au moins deux copies des données, ou trois au total, pour garantir la résistance souhaitée. Ce qui implique de consommer trois fois plus d’espace de stockage. Même en utilisant l’espace de stockage de serveurs économiques, cela fait beaucoup : pour chaque péta-octet de données réelles, 3 Po d’espace sont consommés. Tout ce stockage utilise de l'espace sur les racks, de l'espace au sol, et surtout de l’électricité pour l’alimentation et le refroidissement. Cleversafe a résolu la question en fournissant une interface HDFS qui élimine les copies multiples grâce à l'utilisation d’un code d’effacement du stockage réparti. Ce stockage réparti permet de diminuer de 60 % l’espace utilisé, tout en garantissant une fiabilité supérieure à celle qu’offre la technologie HDFS standard.
  3. Se pose ensuite la question du déplacement des données vers un cluster Hadoop. Pour être traitées, les données doivent migrer vers le cluster Hadoop. Ce n’est pas une sinécure et l’opération peut s’avérer plus ou moins chronophage, selon la quantité de données à traiter et à analyser. Et il s’agit d’une tâche continue. La solution EMC Isilon propose un raccourci. Elle peut représenter des données NFS ou CIFS (SMB1 ou SMB2) placées dans un cluster de stockage Isilon sous la forme de données HDFS, éliminant ainsi le recours à une migration. À l’inverse, elle peut également représenter les données HDFS sous forme de données NFS ou CIFS pour permettre leur exploitation hors du cluster Hadoop.

L’auteur
Marc Staimer est fondateur, analyste en chef et président (ou « pourfendeur de dragon en chef », comme il s’intitule lui-même) de la société Dragon Slayer Consulting située à Beaverton, dans l’Oregon. Quinze années d’expérience en tant que consultant lui ont permis de développer son expertise dans les domaines de la planification stratégique, du développement produit et du développement de marché. Trente-trois ans d’expérience cumulée dans le marketing et les ventes viennent s’ajouter à une expérience en entreprise en infrastructure, stockage, serveurs, logiciels, bases de données, Big data et virtualisation, et font de lui l’un des principaux experts du secteur. Il peut être contacté à l’adresse suivante :
[email protected].

Pour approfondir sur Stockage en Cloud