Spark, la nouvelle corde à l'arc Big Data d'IBM
Big Blue a annoncé contribuer SystemML à la communauté Open Source Spark et dédie 3 500 chercheurs au projet. IBM ouvre un centre Spark pour y former des data scientists.
Parce qu'Hadoop et MapReduce ne suffisent pas, IBM a finalement décidé de s'engager fortement sur la voie de Spark, un autre projet Open Source, aujourd'hui dans la fondation Apache.
Développé à l'origine dans le laboratoire AMPLab de l'Université de Berkeley en Californie, puis placé dans l'Open Source en 2010, Spark représente le nouveau chouchou des technologies d'analyse des données en volume. Il faut dire que l'un des principes de Spark est justement d'aller plus loin qu'Hadoop.
Si le framework de la fondation Apache (Hadoop) a séduit avec son système de fichiers distribué HDFS (également supporté par Spark), il reste toutefois cloisonné à des traitements en batch sur de vastes quantités de données, et limité par les lenteurs de MapReduce - et de sa difficile courbe d'apprentissage pour les très recherchés Data Scientists.
Spark se distingue ainsi par sa capacité à accélérer les traitements en batch, grâce à un moteur In-Memory (100 fois plus rapide que MapReduce), mais également par ses fonctions liées au traitement en streaming des flux de données. Il propose également le support des requêtes SQL via Spark SQL, ainsi que des outils de machine learning. En faisant ainsi une sorte de couteau suisse pour Hadoop, comme le qualifie elle-même la fondation Apache.
Si le ralliement officiel d'IBM à la cause Spark vient certes valider la technologie, il apparaît toutefois que les relations entre Big Blue et la communauté Spark ne datent pas d'aujourd'hui. IBM faisait en effet partie des quatre fondateurs de l'AMPLab et a participé à des séminaires avec les chercheurs de l'université, explique au MagIT Anita Curtys, Directrice des Offres Analytique chez IBM France.
IBM collaborait donc déjà avec la communauté. La nouveauté est qu'il s'agit de la première vraie contribution technologique au projet - un projet dont Databricks, société créée par les fondateurs de Spark étaient les premiers contributeurs au sein de la fondation. En ce sens, il s'agit là "d'un tournant majeur", considère Anita Curtys.
Intégration et contribution
Ces contributions et investissements d'IBM prennent plusieurs formes. Dans un premier temps, IBM compte intégrer Spark à ses outils Analytics et eCommerce.
Il prévoit également d'en faire un service à part entière dans BlueMix, le PaaS Cloud Foundry du groupe. Une offre de type Spark-as-a-service devrait également émerger sur le Cloud d'IBM (SoftLayer).
IBM avait récemment placé Watson au coeur de son offre d'analytique - via Watson Analytics. Avec Spark en plus, Anita Curtys évoque un gain de performances et des possibilités de requêtes interactives. De plus, Spark, intégré à BigInsight, la distribution Hadoop d'IBM, avait déjà un pied dans Watson Foundations (un ensemble intégré de capacités analytiques).
Mais la contribution majeure d'IBM dans le projet réside dans la mise à l'Open Source de SystemML, la bibliothèque de Machine Learning du groupe.
Sur ce point, IBM collaborera avec Databricks pour faire évoluer les capacités de Machine Learning de Spark.
"Les deux entreprises envisagent de présenter de nouveaux algorithmes spécifiques pour l'écosystème Spark et d'ajouter de nouvelles primitives de Machine Learning au projet Apache Spark", explique Databricks dans un communiqué. Des travaux communs porteront également sur l'intégration de SystemML dans la plateforme Spark.
3 500 chercheurs dédiés et un Spark Technology Center
Dernier volet clé de cet engagement, l'apport et la formation de ressources. IBM a prévu de dédier 3 500 chercheurs et ingénieurs à l'écosystème Spark et de former pas moins d'un million de Data Scientists à la technologie et son usage, affirme Big Blue.
Pour cela, le groupe entend s'appuyer sur un centre dédié, également présenté ce jour, le Spark Technology Center. ce centre sera situé à San Francisco. Selon Anita Curtys, les Data Scientists constituent une denrée rare tant aux Etats-Unis qu'en France. Rappelons qu' en France, IBM a créé avec HEC un cursus dédié au Big Data et à l'analytique.
"On a souhaité se rapprocher d'une communauté pour accélérer les développements", poursuit Anita Curtys, confirmant ainsi l'investissement continue de Big Blue dans le Big Data. "IBM préfère s'appuyer sur une communauté pour les nouvelles fonctions, plutôt que d'investir dans des ressources purement IBM."
Toutefois, pas question de rejeter MapReduce. "On se ne désengage pas. Mais Spark peut mieux répondre aux besoins du Big Data que MapReduce", prédit le Directrice des Offres Analytiques d'IBM France.