Victoria - Fotolia
MapR désenlace Spark d’Hadoop
Spark peut vivre sans Hadoop. MapR a profité du Spark Summit pour présenter une distribution Spark sans Hadoop.
Faire de Spark le point de départ d’une infrastructure Big Data et se passer d’Hadoop. C’est un peu le pari qu’a décidé de relever MapR en présentant sa première distribution de Spark…sans composants Hadoop, lors de l’édition 2016 de Spark Summit. La MapR Platform including Apache Spark, nom de cette distribution indépendante, associe les briques de Spark, afin de proposer une pile complète, prête à l’emploi : Spark Core, Mlib, Spark SQL, Spark Streaming, GraphX et SparkR.
A cette suite de composants de base viennent s’ajouter des modules censés garantir un usage de la solution en entreprise, telle que la haute disponibilité, la récupération après sinistre, la gestion de snapshots, par exemple. Ces éléments ont logiquement été piochés dans les technologies développées par MapR pour sa distribution ou encore sa Converged Data Platform. Logiquement, cette distributioon Spark intégre le système de fichier MapR-FS (développé pour remplacer HDFS).
A la clé, MapR souhaite aussi que les entreprises – qui selon le cabinet ESG déploient de plus en plus Spark en production – aient une approche « Spark-first » et exploitent la puissance du framework dès le départ. Histoire de contourner les problèmes induits par exemple par les déploiements des diifférents composants Hadoop ou encore des lenteurs de MapReduce.
Remplacer les outils Hadoop traditionnels par les composants Spark
« Cela différe d’une approche traditionnelle qui consiste à démarrer avec des outils étendus d’Hadoop puis d’y ajouter Spark », explique MapR sur son site. « En tant que moteur de traitement unifié, Spark peut être utilisé pour accélérer les traitements ETL et l’analyse en mode batch ( Spark Core à la place de MapReduce et Hive), du Machine Learning (avec spark MLib au lieu de Mahout) et de l’ETL et de l’analytique en streaming (avec Spark Streaming au lieu de Strom), explique MapR dans une FAQ.
Mais, explique encore la société, si les entreprises ont encore besoin de greffer à la plateforme des composants Hadoop plus traditionnels, la solution le permet. Tout comme le fait de pouvoir ajouter MapR-DB et MapR-Streaming, respectivement la base de données NoSQL et l’outil de streaming d’événements du groupe.
« Les entreprises sont passées du Big Data ‘traditionnelle’, où l’on stocke les données en volume et on les analyse en mode batch, à une prise en compte de la dimension temps réel, avec l’ambition de faire plus avec leurs données, avait expliqué Tugdual Grall, évangéliste chez MapR, lors d’un entretien avec la rédaction. « On assiste à un déplacement vers le temps réel, de MapReduce vers Spark », avait-il aussi commenté. Cette distribution dédiée à Spark en est l’illustration.