Mike_Kiev - Fotolia

Databricks présente SQL Analytics, mais a le regard vers l’horizon

En marge de l’événement, Data +AI Summit Europe (anciennement Spark+AI Summit), Databricks a annoncé le lancement de SQL Analytics, une suite d’outils destinés aux data analysts qui exploitent les capacités du « Lakehouse » de l’éditeur, autrefois réservé aux data scientists et data engineers.

par

Gaétan Raoul, LeMagIT

Publié le: 16 nov. 2020

Les cadres de Databricks l’ont rappelé à plusieurs reprises, ils veulent que le Lakehouse, le fameux concept basé sur la combinaison des fonctionnalités d’un lac de données et d’un datawarehouse, réponde à l’ensemble des besoins. « Nous désirons démocratiser l’accès à la donnée », martèle Ali Ghodsi, PDG de Databricks, dans un entretien auprès du MagIT. « Nous souhaitons unifier les cas d’usage analytique, de machine learning et maintenant de BI, plus traditionnel ».

L’éditeur avait déjà posé les briques nécessaires à l’accomplissement de cette stratégie en présentant Delta Engine, un moteur de requêtes permettant d’optimiser les workloads BI (ETL, jointures, opérations de lecture et d’écriture) via Spark SQL (et surtout Spark 3.0). Ce moteur qui fait la liaison entre la couche BI et le Delta Lake s’appuie lui-même sur le Native Execution Engine (Photon) associé à une strate de mise en cache.

SQL Analytics, l’environnement pour les data analysts dans Databricks

Disponible en préversion à partir du 18 novembre, SQL Analytics est une brique métier, un environnement BI (nommé workspace) par-dessus ce Delta Engine. Cependant, Databricks s’apprête à faire disparaître cette appellation et rassembler les deux composants sous la bannière SQL Analytics, selon Ali Ghodsi.

L’interface fournit un éditeur de requêtes SQL pour explorer les schémas de table stockés sur Delta Lake. L’outil conserve les formulations SQL les plus utilisées. Les résultats peuvent être mis en cache pour réduire les temps d’exécution. C’est ce que Databricks désigne comme des points de requêtage (SQL endpoints en VO), « très optimisés pour les requêtes SQL. Et nous proposons la même chose avec des partenaires. Nous faisons cela avec Tableau, avec Microsoft pour Power BI. Ils ont conçu des connecteurs spécifiques de leurs outils vers les points de requêtage ».

En parallèle, les environnements workspaces sont dotés d’outils de visualisation de données. Les data analysts peuvent créer des tableaux de bord qui peuvent être automatiquement mis à jour et qui disposent de fonctions d’alerte. Pour les développer, Databricks s’est essentiellement appuyé sur les composants de Redash, une société qu’elle a acquise pour ses briques de data viz open source. L’interface est totalement intégrée dans la plateforme de Databricks. Toutefois, l’éditeur n’entend pas se priver des liens privilégiés avec ses partenaires comme Qlik, Tableau, Power BI, Microstrategy, ou encore Toughspot.

« Redash n’a pas les capacités d’un Tableau ou de Power BI. C’est juste que vous voulez avoir un moyen embarqué de faire de la visualisation directement sur vos données. Presque tous les data warehouses ont cela aujourd’hui. Nous souhaitons donc avoir un niveau de base, c’est-à-dire pouvoir au moins interroger vos données, réaliser des visualisations simples, entre autres », rappelle Ali Ghodsi. « L’aspect le plus important de SQL Analytics est l’accès accéléré au point de requêtage vers les outils BI [du marché] », assure le PDG.

Officiellement, il s’agit d’unifier les usages de la donnée sous un même étendard, une plateforme dans le cloud. Les utilisateurs peuvent en principe partager leurs expériences et projets dans un espace de travail commun.

Le Lakehouse, un data lake qui doit tenir ses promesses

Cette plateforme doit permettre d’unifier les informations d’une entreprise. Selon Ali Ghodsi, il ne s’agit pas de reproduire les erreurs du passé.

« Je pense que c’est un nouveau type d’architecture très différent de ce que les organisations déploient sur site. Jusqu’à présent, lorsqu’elles migraient dans le cloud elles essayaient de faire la même réplique, la même copie des données qu’elles avaient sur site, en s’appuyant sur une structure identique. Mais le LakeHouse est supérieur. […] Cela permet de faire de grandes économies puisqu’il n’y a plus qu’une seule version des données » vante le PDG de Databricks.

C’était la promesse effectuée par les éditeurs de distributions d’Hadoop, promesse qu’ils n’ont pas su tenir, et les entreprises ont maintenu leurs silos.

Si le datawarehouse repose sur le lac de données, comme le martèle Databricks, les choses changent. C’est en tout cas ce que croit Hyoun Park, PDG et analyste principal chez Amalgam Insights.

« L’entrepôt de données a été un outil extrêmement puissant pour exploiter les analyses, mais il devient légèrement dépassé à une époque où les données sont partout. »

Hyoun ParkPDG et analyste principal, Amalgam Insights

« L’entrepôt de données a été un outil extrêmement puissant pour exploiter les analyses, mais il devient légèrement dépassé à une époque où les données sont partout, créées en permanence et stockées dans une grande variété de formats », déclare Hyoun Park. « Dans ce contexte, l’idée d’une lakehouse, un data lake qui remplit les fonctions d’un datawarehouse est une avancée importante pour la communauté des analystes ».

Plus précisément, un lakehouse permet de tirer la valeur des données semi-structurées et non structurées, ce que le datawarehouse fait mal. Et si les entreprises désirent obtenir une source de vérité unique, cela ne veut pas dire qu’elles vont déverser leurs informations tout de go dans le cloud. Certains évoquent la possibilité de faire du débord dans ces nuages numériques. Pourtant, c’est là que les sociétés vont à marche précipitée selon Ali Ghodsi. La raison serait connue de tous.

« Premièrement, nous constatons que la pandémie exhorte plus que jamais les organisations à migrer du on premise vers le cloud. C’est un fait. Deuxièmement, la crise oblige les gens à utiliser des technologies qu’ils allaient de toute façon employer à l’avenir », tranche-t-il.

L’IA passe avant la BI

Parmi ces technologies, il y a bien évidemment l’IA. Selon le PDG de Databricks, la crise sanitaire a accéléré l’adoption du machine learning dans le secteur de la santé et dans l’industrie pharmaceutique, ainsi que dans les FinTech. Ces trois domaines sont logiquement essentiels par les temps qui courent.

De plus, les entreprises seraient « tout à fait prêtes » pour exploiter les capacités de l’IA. « Nous avons partagé publiquement quelques-uns de nos indicateurs économiques. Nous avons réalisé un chiffre d’affaires de 350 millions de dollars annualisés au troisième trimestre 2020, contre 200 millions à la même période l’année dernière. En 2015, nos revenus avoisinaient 1 million de dollars », déclare fièrement le PDG.

Et si beaucoup d’organisations utilisent et implémentent des techniques de machine learning traditionnelles à base de modèles mathématiques bayésiens, Ali Ghodsi assure que beaucoup d’autres exploitent du texte, des images et des vidéos à l’aide de méthodes de Deep Learning depuis la plateforme de Databricks.

« La data science est un gros marché. Et je pense qu’il croît beaucoup plus vite que celui de la BI et du datawarehousing. »

Ali GhodsiPDG, Databricks

« La data science est un gros marché. Et je pense qu’il croît beaucoup plus vite que celui de la BI, du datawarehousing, et il continue à être un domaine d’intérêt très important pour nous », indique le responsable.

Cette croissance serait d’ailleurs portée par les entreprises situées en Europe, et dans les régions du monde où Databricks s’est largement développé ces derniers mois, selon Ali Ghodsi. L’éditeur gagne également des parts sur le marché asiatique après avoir passé un partenariat avec Alibaba. Les propos du dirigeant laissent à penser que Databricks a légèrement plus de clients sur AWS, mais que cette proportion a tendance à s’équilibrer avec Microsoft Azure.

En route pour l’introduction en bourse

Mais pourquoi l’éditeur concentre-t-il sa communication sur des fonctionnalités BI, qui plus est pour finalement mieux se rendre compatible avec des outils du marché ? S’il a bien l’intention d’offrir une expérience unifiée à ses utilisateurs, Databricks n’était pas vraiment à l’aise avec le concept de citizen data scientist, si l’on se réfère aux précédents propos de ces porte-parole.

Il ne faut pas oublier que Databricks est certainement en opération séduction et prépare désormais son introduction en bourse.

« Nous serons prêts pour une introduction en bourse en 2021. Cela ne veut pas dire que nous réaliserons forcément l’IPO au premier trimestre, mais il est sûr que nous fonctionnerons comme une société publique. Tous nos processus internes, l’audit des finances, etc. seront similaires à ce que l’on retrouve dans une organisation en bourse l’année prochaine », conclut Ali Ghodsi.

Les propos de Hyoun Park ont été recueillis par SearchDataManagement, propriété de Techtarget, également propriétaire du MagIT.

Databricks présente SQL Analytics, mais a le regard vers l’horizon

SQL Analytics, l’environnement pour les data analysts dans Databricks

Le Lakehouse, un data lake qui doit tenir ses promesses

L’IA passe avant la BI

En route pour l’introduction en bourse

Pour approfondir sur Intelligence Artificielle et Data Science

Avec Lakeflow Connect, Databricks veut simplifier l’ingestion de données

Migration de données : avec BladeBridge, Databricks s’arme face à la concurrence

Databricks est en train de lever 10 milliards de dollars

Lakeflow : Databricks veut unifier sa gestion des pipelines de données