Hadoop : Spark met à jour ses APIs
La version 1.2 d'Apache Spark propose une mise à jour du cœur de la technologie ainsi que des APIs de Spark SQL et de Machine Learning.
En décembre, Spark, l’un des projets les plus populaires gravitant autour de la sphère du framework Hadoop, est arrivé dans sa version 1.2. Une montée en version importante pour la technologie qui a intégré les contributions de quelque 172 développeurs. Plus de 1 000 correctifs ont été ajoutés au socle de Spark.
Spark, versé dans la communauté Apache en 2013, propose une alternative à l’un des points noirs d’Hadoop : le lenteur de MapReduce et son traitement en mode batch. Grâce à un traitement in-memory, Spark permet d’accélérer les requêtes sur Hadoop, avec des performances d’un ratio de 100 selon la page du projet.
Si cette version 1.2 est marquée par des optimisations du moteur cœur de Spark, notamment en termes de performances et de scalabilité, on notera également la mise de jour de certaines APIs clé de la solution. A commencer par celle de Spark SQL qui est désormais ouvertes aux sources de données externes. « Jusqu’à présent, Spark SQL supportait l’accès à toutes les données décrites dans une métastore Hive, avec un nombre réduit de bindings natifs pour les formats courants, comme Parquet et JSON. Cette version présente une API standard pour l’intégration native avec d’autres formats de fichiers et de systèmes de stockage », explique Patrick Wendell, ingénieur logiciel et cofondateur de la société Databricks, créateur de Spark, dans un billet de blog.
Autre amélioration notable, la mise en place d’une nouvelle API définissant les fonctions de Machine Learning de Spark – l’un des usages clé de la technologie. Notons enfin que l’API GraphX, jusqu’alors en version Alpha, est passée dans une mouture stable.