WavebreakmediaMicro - Fotolia
Microsoft dote Azure d’un service Spark-as-a-service avec Databricks
Les deux partenaires ont adapté la plateforme Spark de Databricks aux spécificités d’Azure et connecté la solution aux services de stockage de données.
Microsoft a décidé de faire de Spark un citoyen de première classe de sa plateforme Azure. Et quoi de mieux pour y parvenir que de nouer un partenariat avec les créateurs du framework, réunis aujourd’hui au sien d’une entité commerciale dédiée, nommée Databricks. Cette annonce, réalisée lors de la conférence Connect qui s’est tenue la semaine dernière à New York, vient en fait doter Azure d’un module que l’on peut qualifier de Spark-as-a-service. Si l’on pouvait certes consommer du Spark et mettre en place des clusters du framework sur la plateforme, cela n’était possible que via Azure HDInsight, le service de création de clusters Hadoop d’Azure.
Avec Azure Databricks, nom du service (pour l’heure en version Preview), Databricks et Azure ont surtout optimisé l’environnement du premier aux services du second, et adapté la plateforme aux spécificités d’Azure. Très concrètement, si jusqu’alors la plateforme de Databricks (Unified Analytics Platform) avait déjà un pied dans AWS, et était très proche de S3, elle le sera désormais pour les services d’Azure, à commencer par les composants d’Azure Storage (Azure Blob et Azure Data Lake). Mais l’intégration a également été effectuée pour Azure SQL DataWarehouse et Cosmo DB, le concept de base de données multi-modèle et géo-distribuée à grande échelle de Microsoft. Logiquement, l’intégration est également native avec PowerBI pour permettre aux utilisateurs de visualiser et d’analyser les données résultantes de ces traitements et avec Azure Active Directory pour gérer les accès. Les déploiements de clusters Databricks s’effectuent également à partir de la console d’Azure.
Mais l’un des points forts de cette proximité entre les deux partenaires est la capacité de Databricks à exploiter les spécificités Cloud d’Azure. Outre une intégration native à la console d’administration de la plateforme de Microsoft, l’utilisateur peut également bénéficier des capacités d’élasticité d’Azure grâce aux fonctions d’auto-scaling et d’arrêt automatique des clusters, mais également des différentes typologies de VM, comme l’expliquent Matei Zaharia, Chief Technologist chez Databricks et Peter Carlin, Distinguished Engineer chez Microsoft, dans un billet de blog commun.
Data scientists, Data engineers et utilisateurs métier
Avec sa plateforme, Databricks a développé un Spark taillé pour le monde des entreprises. Si le cœur reste certes le framework de la fondation Apache, la société l’a purement augmenté, en créant le Databricks Runtime, par exemple, dont la vocation est d’accélérer les performances de traitements et des jobs Spark. Surtout – et là est un point clé – la plateforme doit aussi permettre de faciliter les usages de Spark – et de ses composants, comme le Machine Learning – auprès d’une population plus diversifiée. Les notebooks, inclus à la plateforme, permettent une utilisation par les data scientists, certes, mais également par les data engineers, et enfin les utilisateurs métiers. Segmentation que l’on retrouve évidemment au sein d’Azure Databricks. Des outils de collaboration et de gestion de workflow, inhérents à la plateforme, ont également été repris dans le service Azure.
Azure Databricks rejoint désormais les offres de Google et AWS, qui avaient posé un service Spark sur leur plateforme respective. Google commercialise Dataproc, un service qui regroupe Hadoop, Spark, Hive et Pig. Chez AWS, on peut créer des clusters Spark à partir EMR (Elastic MapReduce). Mais ce ne sont toutefois que des implémentations relativement brutes. Avec Databricks sur Azure, Microsoft reste davantage ouvert à une cible plus étendue d’utilisateurs.