Databricks prône le « 100 % » serverless
Lors de Data+AI Summit, la conférence annuelle de Databricks, Ali Ghodsi, CEO de l’éditeur, a annoncé que l’ensemble des services disponibles depuis la plateforme s’exécuteront en mode « serverless » dès le 1er juillet 2024.
Selon le dirigeant, cette décision a été prise il y a deux ou trois ans, mais ce ne fut pas sans débats entre la direction et les responsables de l’ingénierie. « Il y a deux ou trois ans, mon cofondateur, Matei Zaharia, et moi-même avons dit à l’entreprise que nous devions construire une version “lift and shift” du serverless », déclare Ali Ghodsi lors du keynote d’ouverture du Datai+AI Summit 2024. « Nos ingénieurs ont refusé. Ils nous ont répondu qu’il faudrait reconstruire les services de zéro pour y arriver. Nous leur avons dit non. Il s’est avéré que nous avions tort », lâche-t-il. « Ils ont travaillé dur pendant deux ans pour reconcevoir les produits comme si nous lancions une entreprise ».
Les jobs Apache Spark, les charges de travail IA liées à Mosaic AI, les notebooks, les charges de travail Databricks SQL, les tableaux de bord, les flux de travail et l’ensemble des pipelines de données seront disponibles dans ce mode.
Aujourd’hui, Databricks propose en préversion des services serverless pour les notebooks et les workflows, pour les pipelines DLT, et pour les warehouses SQL, entre autres.
Jusqu’alors, quelques services de la plateforme étaient accessibles dans ce mode serverless. Par exemple, en 2023, Databricks avait annoncé la disponibilité générale de Model Serving, une solution de déploiement de modèles de machine learning basé sur MLFlow. Le service sert principalement à exécuter des algorithmes de recommandation ou de matchmaking en temps réel.
Actuellement, Databricks dispose de deux orchestrateurs d’instances de calcul. Le premier est intégré dans le control plane de la plateforme, en sus des systèmes de gestion des requêtes, de code, du catalogue Unity, les applications Web. Il pilote les instances déployées par le client dans son propre compte cloud.
Un second control plane pilote les instances de calcul serverless. Celles-ci sont déployées depuis le compte Databricks du client, mais sont gérées par l’éditeur sur le cloud choisi par le client. Databricks assure que ces pools de calcul s’exécutent dans des limites réseau. « Plusieurs couches de sécurité » sont en place pour isoler les différents workspaces des clients de Databricks et il y a « des contrôles réseau supplémentaires entre les clusters d’un même client ».
Ali GhodsiCEO & cofondateur, Databricks
La promesse ? Simplifier la gestion des clusters et des middlewares sous-jacents de la plateforme. « En arrière-plan, nous optimisons les instances de calcul et vous n’aurez plus à choisir votre version d’Apache Spark. Nous la mettrons à jour pour vous », assure Ali Ghodsi.
« En utilisant vos propres ressources de calcul, vous payez pour le temps d’inactivité, ce qui peut coûter très cher. En revanche, avec serverless, vous ne payez que pour les ressources que vous utilisez réellement. Il n’y a pas de clusters à configurer et donc pas de temps d’inactivité à prendre en compte », vante-t-il.
En toute logique, Databricks adapte ses mécanismes de reprise après sinistres, de sécurité et de gestion des coûts.
Les instances « classiques » ne disparaissent pas
Il a également annoncé la disponibilité générale de « Predictive Optimization », un moyen d’optimiser automatiquement les tables Delta Lake rattachées à Unity Catalog, en appliquant des opérations de maintenance, par exemple en réduisant la taille des fichiers ou en supprimant les données qui ne sont plus présentes dans la dernière version de la table. Ces optimisations sont facturées suivant un SKU spécifique.
Ici, Databricks ne fait que suivre une tendance déjà effective chez les clients de Snowflake et de BigQuery. « À l’avenir, les nouveaux produits, probablement dès l’année prochaine, seront disponibles en mode serverless », informe Ali Ghodsi.
« Si votre organisation n’est pas encore passée au serverless, je vous encourage à le faire », poursuit-il. « Veuillez vérifier que nous avons une disponibilité dans une région cloud proche de vous. Peu importe le pays où vous vous trouvez actuellement, nous espérons disposer d’une infrastructure serverless à proximité ».
Si les propos du dirigeant laissaient entendre que Databricks allait abandonner la prise en charge des instances gérées par les clients, Joel Minnick, vice-président marketing chez Databricks se veut rassurant.
Joel MinnickVice-président marketing, Databricks
« Nous avons des clients qui sont avec nous depuis très longtemps et des clients qui viendront nous voir demain et qui diront, “je ne veux pas du serverless, je veux le contrôle total sur mon cluster”. Lorsque le serverless sera 100 % actif sur Databricks le 1er juillet, nous n’enlèverons rien à l’expérience “classique” », assure-t-il auprès de la presse. « Donc si vous voulez toujours gérer vos propres clusters, allez-y. Mais si vous voulez une expérience serverless, c’est maintenant possible ».
« Tout ce que nous ferons à l’avenir sera simplement “serverless native” », clarifie-t-il.
Cette offre « 100 % » serverless sera d’abord disponible sur AWS et Azure puis progressivement sur GCP. Pour l’heure, seules les instances serverless SQL warehouses sont disponibles depuis sept régions Google Cloud.
L’accès aux instances serverless est actuellement cantonné aux clients ayant souscrit à un forfait Premium ou Enterprise.