ktsdesign - Fotolia
Spark et Hadoop : compagnons ou concurrents ?
Dans quel cadre Hadoop et Spark peuvent-ils s’interconnecter ? Les relations entre les deux frameworks suscitent l’interrogation des entreprises. Les spécialistes du secteur considèrent quant à eux Spark comme un compagnon d’Hadoop ou comme un concurrent direct.
La sphère qui entoure le monde Hadoop a considérablement évolué, bien au-delà de son cœur original, composé de HDFS et de MapReduce. Parmi la poignée de composants qui gravitent autour d’Hadoop, une technologie a particulièrement attiré l’attention : Spark. Cette solution a l’ambition de remplacer MapReduce ainsi que sa méthode quelque peu lourde de traitement en mode batch des données sur des clusters Hadoop. Les supporters de Spark soutiennent que le framework est doué de performances 100 fois supérieures à MapReduce.
Après la mise à disposition de Spark l’année dernière, nombre de fournisseurs de solutions Hadoop se sont rapidement mis à intégrer la solution – bientôt dans sa version 1.6 – à leurs propres produits. Mais même si Spark est désormais au cœur d’applications dites de Big Data, aux côtés d’HDFS et de YARN (le gestionnaire de ressources d’Hadoop depuis sa version 2), il apparait aussi sous la forme de solution autonome. Lançant alors un débat animé dans la communauté : Hadoop vs Spark.
Hadoop va-t-il n’ être qu’une porte d’entrée pour Spark ? Pour répondre à cette question, nos confrères de SearchDatamanagement (groupe TechTarget, propriété du MagIT) ont interrogé certains participants de l’édition 2015 de Strata+Hadoop World qui s’est tenue à New York. La question : considèrent-ils Spark comme un complément à Hadoop ou une alternative au framework, à YARN et à MapReduce. Voici quelques-unes de leurs réactions.
Des avis partagés
Pour Sridhar Alla, architecte Big Data chez Comcast, « Spark ne stocke rien. Si Spark remplace MapReduce et YARN pour le traitement des données, le stockage sera assuré encore pendant longtemps par Hadoop ».
Hakan Jonsonn, data scientist chez Sony Mobile Communication pour le produit Lifelog, quant à lui, pense bien que Spark constitue un remplaçant à Hadoop. « Spark est bien plus rapide que Hadoop. D’un point de vue productivité, vous n’avez pas à créer des modèles analytiques dans un autre outil. »
Brett Shriver, directeur en charge des technologies chez FINRA (Financial Industry Regulatory Authority) reste encore prudent : « Nous disposons 4 ou 5 patterns liées aux performances susceptibles d’être pris en charge par Spark. Sur le long terme, qui sait ? Peut-être y irons-nous. Le jury ne s’est pas encore prononcé. »
Pour Joe Hsy, directeur des services Cloud, de la division WebEx de Cisco croit déceler une place pour Spark. « Je pense que Spark va remplacer une grande partie des processus traités aujourd’hui par MapReduce. Avec le temps, si les fonctionnalités de Spark avancent, il pourrait complétement remplacer MapReduce. »
L’avis est moins tranché chez William Theisinger, vice-président de l’ingénierie chez Yellow Pages. « Vous devez pouvoir prédire l’orientation des technologies. Je dirai que ce n’est pas le cas pour Spark aujourd’hui. Je vais encore devoir supporter MapReduce à côté. »
Enfin Charlie Crocker, en charge du Business Analytics program chez Autodesk veut prendre de la hauteur. « Que vous utilisiez Spark ou Hadoop, je pense que cela va devenir une question philosophique. Si vous êtes un révolutionnaire, Hadoop est mort. Mais ce n’est pas le cas. »
Hadoop dispose d’une longueur d’avance en matière de déploiement. Malgré le caractère batch de MapReduce, de nombreuses entreprises qui y adossent déjà certains traitements vont probablement poursuivre son utilisation. De plus, passer les PoC Hadoop en production a nécessité une courbe d’apprentissage assez lente. Il se peut que Spark nécessite cette même courbe d’apprentissage.
Traduit et adapté par la rédaction