Definition

Hadoop Distributed File System (HDFS)

HDFS est un système de fichiers distribué qui donne un accès haute-performance aux données réparties dans des clusters Hadoop. Comme d’autres technologies liées à Hadoop, HDFS est devenu un outil clé pour gérer des pools de Big Data et supporter les applications analytiques.

HDFS est généralement déployé sur des serveurs à bas coût dits de commodité. Les pannes sont ainsi fréquentes. Le système de fichiers est donc conçu pour être extrêmement tolérant aux pannes, tout en facilitant le transfert rapide de données entre les nœuds du système. Cela permet de maintenir les systèmes Hadoop opérationnels si un nœud tombe en panne. Ce mécanisme réduit le risque d’une défaillance critique, même si la panne concerne plusieurs nœuds.

Quand HDFS recueille une donnée, le système segmente l’information en plusieurs briques et les distribue sur plusieurs nœuds du cluster, ce qui permet alors le traitement en parallèle. Le système de fichiers copie chaque brique de donnée plusieurs fois et distribue les copies sur chacun des nœuds, plaçant au moins une copie sur un serveur séparé dans le cluster. Résultat, les données, stockées sur des nœuds défaillants, peuvent être retrouvées ailleurs dans le cluster. Le traitement peut se poursuivre en dépit de la panne.

HDFS est développé pour supporter les applications avec de grands volumes de données, comme les fichiers individuels dont la quantité peut se compter en teraoctets. Il s’adosse à une architecture maître / esclave, chaque cluster comprenant un NameNode unique en charge des opérations du système de fichiers. NameNode supporte également les DataNodes qui gèrent le stockage de données sur chaque nœud.

 

Cette définition a été mise à jour en septembre 2014

Pour approfondir sur Base de données