YARN (Yet Another Resource Negotiator)
Apache Hadoop YARN (Yet Another Resource Negotiator) est une technologie de gestion de clusters. Elle rend l'environnement Hadoop mieux adapté aux applications opérationnelles qui ne peuvent pas attendre la fin des traitements par lots.
YARN compte parmi les fonctions clés de Hadoop 2, la deuxième génération de l'infrastructure open source de traitement distribué d'Apache Software Foundation. Décrit à l'origine par Apache comme un gestionnaire de ressources restructuré, YARN est désormais qualifié de système d'exploitation distribué, à grande échelle, destiné aux applications de Big Data.
En 2012, YARN devient un sous-projet du projet de plus grande envergure Apache Hadoop. Parfois appelé MapReduce 2.0, YARN est un logiciel remanié qui dissocie les capacités de planification et de gestion de ressources de MapReduce du composant de traitement des données. Il permet ainsi à Hadoop de prendre en charge des approches du traitement plus variées, ainsi qu'une gamme plus étendue d'applications.
Par exemple, les clusters Hadoop peuvent désormais exécuter des applications interactives d'interrogation et de traitement de données en flux, parallèlement à des tâches de traitement en lot MapReduce. La version d'origine d'Hadoop couplait étroitement le système de fichiers HDFS (Hadoop Distributed File System) à l'infrastructure de programmation orientée lots de MapReduce, qui se charge de la gestion des ressources et de la planification des tâches sur les systèmes Hadoop, et prend en charge l'analyse et la condensation des ensembles de données en parallèle.
YARN combine d'une part un gestionnaire centralisé des ressources qui harmonise l'exploitation des ressources système Hadoop par les applications et d'autre part des agents du gestionnaire de noeuds qui surveillent les opérations de traitement effectuées sur chaque noeud d'un cluster.
Exécuté sur des clusters composés de matériel généraliste, Hadoop suscite un intérêt particulier en tant que zone de transit (staging area) et de datastore, pour les grands volumes de données structurées et non structurées destinés à des applications d'analytique. En séparant HDFS de MapReduce, YARN rend l'environnement Hadoop mieux adapté aux applications opérationnelles qui ne peuvent pas attendre la fin des traitements par lots.