Hadoop se rapproche un peu plus du temps réel
Le projet Storm vient d’être élevé au rang de premier niveau de la fondation Apache, marquant ainsi une étape clé dans l’évolution de la technologie : l’assurance d’avoir trouvé une communauté stable capable de soutenir officiellement le projet.
Le traitement des données en temps réel dans Hadoop monte d’un cran. Le projet Storm vient d’être élevé au rang de premier niveau de la fondation Apache, marquant ainsi une étape clé dans l’évolution de la technologie : l’assurance d’avoir trouvé une communauté stable capable de soutenir officiellement le projet. Storm fait partie de l’écosystème de projets Open Source qui gravitent autour d’Hadoop, à l’image de Spark (traitement des données en mémoire), Tez (traitement des données) ou encore Pig ou Ambari (administration Hadoop). Un ensemble de frameworks qui viennent enrichir, compléter voire combler certaines lacunes d’Hadoop, souvent pointées du doigt par l’industrie. C’est notamment le cas de la gestion du temps réel, peu compatible avec le mode batch cher à Hadoop.
Storm a été placé dans l’incubateur de la fondation Apache en 2013 par Twitter. Il compte parmi ses contributeurs clés, Yahoo, Twitter, Verisign et Hortonworks – qui travaille notamment à valider Storm pour YARN. Parmi les utilisateurs de la technologie, on retrouve Spotify, Groupon, Flipboard, Alibaba ou Klout – pour n’en citer que certains.
« Storm facilite la mise en place de traitements fiables de flux de données non consolidées, faisant en temps réel ce que Hadoop fait en mode batch », indique la page du projet. Parmi les cas d’usage de la technologie, la fondation Apache a identifié l’analytique temps réel, le machine learning en ligne, le traitement en continu et l’ETL notamment. Placé sur un cluster en mode distribué, Storm dispose de capacités élevées de tolérance aux pannes. Le framework a la capacité de traiter un million de tuples par seconde par nœud, assure la page du projet.