Les bénéfices d’Hadoop surpassent-ils les problèmes de la technologie?

Dans un entretien avec SearchStorage.com, l'analyste John Webster revient sur les bénéfices d'Hadoop et tente d'expliquer en quoi ils surpassent les failles actuelles de la technologie.

Si Hadoop reste un sujet de discussion populaire lorsque l’on parle d’environnements Big Data, la technologie est aussi la cible d’une quantité de critiques. Non seulement la technologie est assez complexe et requiert des compétences précises, mais les professionnels IT doivent aussi être conscients d’inconvénients comme la présences de points de fautes uniques dans l’architecture Hadoop ou des besoins de capacités accrus. Selon John Webster, un des associés du cabinet Evaluator Group, les bénéfices d’Hadoop valent bien quelques secousses. Pour LeMagIT Webster fait l’état des bénéfices d’Hadoop et de ses principaux problèmes.

John Webster, Evaluator Group

Quels sont les principaux problèmes avec Hadoop?

John Webster: Mis à part le manque de compréhension sur ce qu’est Hadoop et sur comment l’utiliser – ce qui devrait changer assez rapidement – les utilisateurs pointent souvent du doigt les points de faute uniques dans Hadoop. Il y a deux types de nœuds : les NameNodes et les DataNodes. Si le NameNode connaît une défaillance, le cluster arrête tout simplement de fonctionner, et il s’agit bien d’un single point of failure. Mais la fondation Apache, qui pilote le développement de la version libre d’Hadoop s’est attaquée au problème. Dans la dernière version d’Hadoop, il existe désormais un mécanisme de failover. Et puis il y a aussi des distributions commerciales qui peuvent offrir un support HA en mode actif/actif pour les name nodes. Les choses évoluent et le problème est en passe d’être résolu.

Un autre point de débat est le fait qu’Hadoop réalise systématiquement trois copies des données ingérées dans le cluster. Vous prenez un fichier, l’écrivez sur disque et il est alors répliqué deux fois. Ainsi vous avez au trois copies complète de chaque donnée, une primaire et deux fall back. Il n’y a aucun concept de Raid. Les copies sont là en cas de défaillance de telle façon à ce que vous puissiez chercher les données sur un autre nœud en cas de souci. Ce niveau d’inefficacité est l’une des choses que l’IT d’entreprise a du mal à comprendre.

L’autre problème est que pour ajouter de la capacité de stockage à un cluster Hadoop, il faut ajouter de nouveaux Datanodes, mais ceux-ci arrivent aussi avec un certain nombre de CPU. Si votre cluster comporte 500 ou 1000 nœuds, il n’est pas rare que l’utilisation des CPU chute sous la barre des 10%.Dans de très grands clusters l’utilisation des CPU peut chuter à 4 à 5%. Les entreprises voient cela comme du gaspillage de ressources et se demandent s’il n’est pas possible de faire évoluer séparément la capacité de stockage de la capacité CPU. Il existe des façons d’y parvenir

Les professionnels de l’IT sont au fait de ces difficultés. Aussi pourquoi est-ce que l’on entend toujours autant parler d’Hadoop ? La situation s’est-elle améliorée depuis que la technologie est apparue?

Webster: Elle s’est améliorée et continue à l’être et cela va continuer. Il y a une vraie demande pour Hadoop en entreprises et cela est du au fait que la technologie peut faire des choses qu’un datawarehouse traditionnel ou qu’un infrastructure de calcul ne peut réaliser. Hadoop offre des performances élevées à grande échelle et à un coût faible. Ce sont trois choses [la performance, l’évolutivité et les faibles coûts] que les entreprises apprécient ; il suffit maintenant d’éliminer les derniers bugs. Une fois que cela sera fait, je pense que vous verrez [Hadoop] proliférer dans les environnements de production. Encore une fois tout dépend du type d’applications que vous entendez utiliser sur Hadoop, mais je pense que cela va se résoudre dans les années à venir.

Alors pour résumer, A quel point Hadoop est il nécessaire dans les environnements Big Data et si vous ne souhaitez pas le mettre en œuvre, quelles pourraient être les alternatives ?

 Webster: Il y a et il y a eu des alternatives Hadoop dans la communauté : MySQL, NoSQL, NewSQL. Si vous programmez des clusters parallèles avec ces langages et utilisez ces bases de données, vous pouvez disposer de capacités analytiques très évolutives comme alternatives à Hadoop. Donc, il y a bien des alternatives sur le marché. Ceci dit pour vous donner un exemple de la puissance d’Hadoop, je parlais ce matin à une entreprise financière qui a cinq divisions et chacune d’entre elles a ses propres données sur les 32000 sociétés qu’elles suivent. Ce que voulait cette société était de pouvoir analyser les données  dont elle disposait sur ces 32 000 compagnies pour détecter tout signe de problème tant dans leurs données financières que dans les données textuelles transmises à la FCC – en fait une masse de données structurées, non structurées, etc. Ils ont tenté de faire ça avec les plates-formes traditionnelles et sont parvenus à la conclusion qu’il leur faudrait des mois.

Ils ont mis en place un cluster Hadoop, de taille plutôt modeste, et ont découvert qu’ils pouvaient obtenir leur résultat en environ 30 minutes sur un jeu de données compressées de 3 To, ce qui est plutôt puissant. Passer d’une application qui aurait requis 3 mois sur une plate-forme standard à 30 minutes,  fait toute la différence. Cela signifie, selon les administrateurs, que l’on passe d’une situation de type «  c’est impossible » à une situation où « c’est possible avec Hadoop ». C’est de cela qu’il s’agit. On parle de gens qui peuvent faire des choses qu’ils ne pouvaient tout simplement pas faire auparavant.

 

Pour approfondir sur Datawarehouse