peshkov - stock.adobe.com

Databricks épouse les formes des services de Google Cloud

Databricks a annoncé le déploiement de sa « plateforme analytique unifiée » sur Google Cloud. L’éditeur californien espère attirer les clients de GCP, dont les acteurs de la grande distribution et du marketing en France.

Lors de son récent tour de table, les trois fournisseurs de cloud américains Microsoft, AWS et Google Cloud (GCP) ont soutenu financièrement Databricks. Dans un même temps, l’éditeur derrière Apache Spark n’offrait pas sa plateforme Delta Lake depuis GCP. Ce sera bientôt le cas.

La licorne a récemment présenté son mode de déploiement sur Google Cloud. Disponible depuis Google Marketplace, le « Lakehouse » de Databricks s’exécutera sur GKE (Google Kubernetes Engine) et proposera des connecteurs natifs pour Google Cloud Storage, BigQuery, Looker et la file d’attente de messages Pub/Sub. Le runtime containerisé sur GKE est administré depuis les services Cloud Identidy (un SSO) et Cloud Billing, l’outil de suivi de facturation de GCP.

Databricks, mais sur Google Cloud

« Nous proposons un environnement qui ne s’installe pas sur des VM isolées, mais qui s’intègre dans un substrat cloud. »
Nicolas MaillardDatabricks

« D’un point de vue fonctionnel, c’est toujours la même promesse d’une plateforme unifiée. Nous proposons un environnement qui ne s’installe pas sur des VM isolées, mais qui s’intègre dans un substrat cloud », déclare Nicolas Maillard, Senior Director field Engineering Central & SEMEA chez Databricks. « Avec AWS ou Azure par exemple, nous nous connectons avec leurs outils sécurité, leurs autres briques analytiques, nous appliquons une logique identique sur Google Cloud ».

Dans le communiqué de presse associé à cette annonce, l’éditeur assure que c’est la première fois que ses clients pourront « déployer Databricks dans un environnement entièrement conteneurisé ». En réalité, la mise en œuvre de Delta Lake sur GCP est plus subtile que cela.

« À chaque fois, nous cherchons la meilleure manière de déployer notre plateforme. Il se trouve que tous les clouds ont des orchestrateurs de conteneurs différents. En particulier, Google Cloud étant le créateur de Kubernetes, son moteur d’orchestration est inégalé. Nous nous appuyons sur GKE, là où dans les autres clouds [les composants de la plateforme] sont conteneurisés, dans le sens où nous employons des images Docker, mais pas forcément Kubernetes », précise Nicolas Maillard.

Concernant BigQuery, Databricks entend proposer plusieurs formes d’intégrations afin d’assurer une complémentarité avec les cas d’usage existant du service de data warehousing.

« Un grand nombre de clients de GCP utilisent BigQuery. Nous voulons leur permettre de pousser des résultats d’analyse dans BigQuery ou les consolider. De même, nous souhaitons être capables de tirer des informations de ce service vers Databricks pour des calculs de machine learning et des jobs de streaming. Il s’agit d’offrir aux usagers de placer leurs workloads au meilleur endroit suivant la tâche à accomplir de manière la plus transparente possible », assure Nicolas Maillard.

BigQuery peut ainsi aider à traiter certaines requêtes SQL. Databricks s’appuie notamment sur la fonctionnalité SQL Analytics, introduite après une mise à jour d’Apache Spark.

L’éditeur propose en bêta public un outil pour exécuter des commandes SQL sur des objets de données externes à l’environnement Databricks. Cette capacité permet de sélectionner en source de données plusieurs services AWS (CloudWatch, Athena, DynamoDB, RedShift), Azure Synapse Analytics, trois solutions Google (Analytics, BigQuery et Sheets), mais aussi Jira, MongoDB ou encore Elasticsearch.

En ce sens, la promesse de plateforme unifiée ne serait pas immédiatement tenue. « Il y a une volonté de communiquer simplement avec les services des fournisseurs de cloud computing et à terme d’offrir une unification de la couche de stockage et de calcul », répond le responsable.

Concernant les interactions avec Looker, Databricks veut livrer des connecteurs natifs, comme l’entreprise le fait déjà pour Power BI et Tableau. « Nous proposons des connecteurs qui comprennent l’outil final et la manière dont il interprète des requêtes volumineuses et variées. Toutes les fonctionnalités ne seront pas disponibles au premier jour, mais il y aura des évolutions pour assurer l’intégration complète avec Looker ».

Databricks souhaite aussi fournir des articulations avec Google IA Platform. Auparavant, AI Platform était un catalogue de services dédiés au machine learning et à l’IA, plutôt qu’une véritable plateforme. Dans la nouvelle mouture en version bêta, GCP imbrique AI Platform, AutoML et MLOps. Néanmoins, certaines fonctionnalités chevauchent celles offertes dans l’environnement Databricks, notamment MLOps.

« La problématique IA est tellement large qu’il y a toujours du recouvrement. En revanche, nous poussons la même logique de partage de création et d’évaluation de la qualité des modèles ML, souvent effectuée depuis la couche MLFlow. À chacun de décider où accomplir le travail, mais nous proposons des capacités pour nettoyer les données jusqu’au partage de modèles via des services de serving et de déploiement spécifique à Google Cloud, si l’utilisateur le souhaite », rappelle Nicolas Maillard. « À l’inverse, nous pouvons traiter des jobs ML et analytiques en provenance des services GCP ».

Couvrir les besoins des spécialistes du retail et du marketing

Selon le responsable, certains secteurs sont « plus sensibles à l’offre de Google », par exemple en France. « Les services BigQuery et Google Analytics attirent beaucoup de clients ou des entités marketing qui exploitent déjà AdWords, tandis que les acteurs du retail considérant Amazon comme un possible concurrent se tournent vers les outils de machine learning et d’IA de Google. C’était une demande de beaucoup de prospects et de nouveaux clients », vante-t-il.

Une dizaine de sociétés ont pu tester Delta Lake sur Google Cloud dont Condé Nast. « Maintenant, nous allons embarquer de nouveaux clients sur les premières versions hébergées depuis GCP. Ensuite, nous déroulerons les éléments nécessaires à la disponibilité générale, si tout se passe bien, au deuxième trimestre 2021 ».

Plusieurs partenaires de Databricks dont Collibra, Confluent, Fivetran, Informatica, Tableau, Qlik, Trifacta ou encore MongoDB ont annoncé de futures intégrations avec cette mouture de la plateforme de data science propre à GCP.

Des usages multicloud à la marge

Une version managée de Databricks est désormais accessible depuis Google Cloud, AWS, Microsoft Azure et Alibaba. Pour autant, l’éditeur ne mise pas sur toutes les acceptions du multicloud, d’une part parce que cela ne correspond pas à son approche originelle, d’autre part parce que ses clients recourent à cette stratégie pour des raisons spécifiques.

« Nous sommes capables d’accompagner nos clients sur les différents clouds. Pour l’instant, nous voyons surtout l’adoption de stratégie multicloud dans une logique de traitement de workloads. »
Nicolas MaillardDatabricks

« Nous sommes capables d’accompagner nos clients sur les différents clouds. Pour l’instant, nous voyons surtout l’adoption de stratégie multicloud dans une logique de traitement de workloads. C’est-à-dire que les grands comptes s’aperçoivent que certains fournisseurs offrent des services plus performants que d’autres dans une région particulière. C’est un choix souvent opportuniste, dicté davantage par la technique et les besoins que pour des raisons économiques. En revanche, le partage de données, par exemple le stockage sur un cloud et le traitement des données sur un autre, demeure relativement rare parce que cela reste complexe à orchestrer », explique le Senior Director field Engineering.

Pour l’instant, Databricks estime qu’il couvre la majorité des besoins en proposant leur solution sur les quatre clouds majeurs. Cela ne l’empêche pas d’étudier les demandes de ses clients.
« Nos équipes rencontrent quotidiennement des clients et nous observons les exigences en matière de cloud, que ce soit la présence de notre plateforme chez certains fournisseurs ou même le déploiement des instances de calcul dans les régions cloud de nos partenaires. AWS, Microsoft Azure et GCP ouvrent régulièrement de nouveaux centres de données. Suivant les discussions avec nos clients, nous explorons les possibilités de déployer notre solution dans certaines zones géographiques ou clouds différents », conclut Nicolas Maillard.

Pour approfondir sur Intelligence Artificielle et Data Science