Definition

Cluster Hadoop

Un cluster Hadoop est un type particulier de traitement informatique en grappe, conçu spécialement pour stocker et analyser de grandes quantités de données non structurées dans un environnement distribué.

Ces clusters s’adossent à la solution Open Source de traitement informatique distribué Hadoop et s’appuient sur des serveurs d’entrée de gamme, dits de commodité. D’une façon générale, une machine dans un cluster est appelée NameNode et une autre JobTracker ; elles forment les maîtres (masters). Les autres machines restantes du cluster agissent à la fois comme DataNode et TaskTracker ; ce sont les esclaves (Slaves). Les clusters Hadoop sont souvent décrits comme des systèmes Shared-Nothing (qui ne partagent rien) car le seul élément partagé entre les nœuds est le réseau qui les interconnecte.

Les clusters Hadoop sont connus pour doper les performances des applications d’analyse de données. Ils sont également conçus pour passer à l’échelle : si la puissance de traitement d’un cluster est trop sollicitée par un volume croissant de données, des nœuds supplémentaires peuvent être ajoutés pour augmenter le rendu. Les clusters Hadoop sont hautement tolérants à la panne car chaque donnée est copiée sur les autres nœuds du cluster. Les données ne sont ainsi pas perdues en cas de défaillance d’un nœud.

En 2013, Facebook a été identifié comme ayant le plus important cluster Hadoop dans le monde. Parmi les autres utilisateurs clés de cette technologie, on retrouve Google, Yahoo et IBM.

Cette définition a été mise à jour en septembre 2014

Pour approfondir sur Big Data et Data lake