Starburst se concentre sur la découvrabilité des données
Starburst a dévoilé mercredi un trio de nouvelles fonctionnalités pour sa plateforme de gestion et d’analyse des données visant à améliorer la découverte des jeux de données, leur indexation et leur mise en cache.
Lors de son événement Datanova, Starburst a mis en avant son catalogue de données automatisé pour Starburst Galaxy qui vise à accélérer et à faciliter la découverte des données par les utilisateurs.
Pour rappel, Galaxy est l’offre cloud native de l’éditeur tandis qu’Enterprise est destinée à ses clients sur site.
En outre, l’éditeur a annoncé que les utilisateurs peuvent désormais utiliser un client Python pour accéder à Starburst Galaxy et à Enterprise. Il a également présenté un outil nommé Warp Speed qui doit automatiser l’indexation et la mise en cache des données. Selon Starburst, cette technologie accélérerait les requêtes jusqu’à sept fois par rapport à une indexation et une mise en cache manuelle.
Starburst, fondé en 2017 et basé à Boston, est l’éditeur d’une solution de fédération de requêtes, de transformations et de partage de données établies sur Trino, un moteur distribué, issu de PrestoSQL, lui-même étant une branche de Presto, un projet à l’origine porté par Facebook. Son offre s’inscrit dans la mouvance Data Mesh ou maillage de données.
Le maillage des données est une approche décentralisée de la gestion et de l’analyse des données qui s’appuie sur l’expertise des utilisateurs expérimentés au sein des départements pour aider à superviser les opérations de données de leur organisation. Parmi les autres éditeurs proposant des outils de maillage de données figurent Informatica et Talend.
Le catalogue de données automatisé et Warp Speed sont maintenant disponibles en préversion privée, tandis que l’accès via le client Python est entré en disponibilité générale. Warp Speed devrait être disponible pour les utilisateurs Enterprise d’ici à la fin février et pour les utilisateurs Galaxy dans les trois prochains mois.
Accélérer et optimiser les requêtes de données
Avant même le développement du catalogue de données automatisé, le moteur de requête de Starburst collectait automatiquement des métadonnées, concernant un data set particulier, lorsque ce jeu de données était connecté à Starburst. Désormais, la plateforme ne se contente pas de collecter les métadonnées, mais ajoute également le jeu de données à un catalogue, afin qu’il puisse être trouvé et interrogé pour une utilisation analytique pertinente. En clair, cela doit permettre de créer des « produits de données ».
Warp Speed, quant à lui, représente le reconditionnement par Starburst des capacités dont elle a hérité lors de l’acquisition de Varada en juin 2022.
Dans sa documentation, Starburst parle d’indexation et de mise en cache « intelligentes » par-dessus un data lake (Hive, Iceberg, Delta Lake) ou un SGBD (PostgreSQL, pour l’instant), déployés sur des clusters Kubernetes (EKS, AKS ou GKE). Dans les deux cas, la technologie de Varada doit automatiquement séparer les données et les métadonnées issues des buckets d’un stockage objet, puis les placer dans des groupes de lignes, eux-mêmes stockés dans un format colonnaire propriétaire, résidant dans un SSD NVMe attenant aux workers d’un cluster.
En ce qui concerne l’indexation, le système crée les index les plus adéquats suivant le type de données et les ajoute aux groupes de lignes. « Les index sont utilisés lorsque les requêtes accèdent aux colonnes pour filtrer les lignes (prédicats, jointures, filtres, recherches, etc. », précise Starburst.
« Les fonctions les plus attrayantes seront l’indexation et la mise en cache – qui amélioreront les performances –, et le catalogue de données automatisé – qui permettra à tous les utilisateurs de trouver plus facilement des données et des ressources potentiellement utiles », anticipe Doug Henschen, analyste chez Constellation Research. « Les utilisateurs plus avertis pourraient développer des produits de données… mais les gains de performance et l’amélioration de l’accès aux données profitent à tous les utilisateurs ».
De même, Vishal Singh, responsable des produits de données chez Starburst, a cité le catalogue de données automatisé comme ayant le plus d’importance potentielle pour les utilisateurs, parmi les nouvelles capacités dévoilées lors de Datanova.
Vishak Singh assure que ce catalogue permet aux utilisateurs de savoir quels ensembles de données interroger sans avoir à les rechercher d’abord dans les différentes bases de données qu’une organisation peut utiliser. Cela permet également d’éviter de trouver différentes versions d’un même jeu de données à différents endroits et de devoir explorer ces jeux de données pour découvrir celui qui est le plus pertinent.
« Un [utilisateur] veut écrire une requête et poser une question, et si vous savez quelle requête écrire, c’est le chemin le plus facile », assure Vishal Singh. « Au fur et à mesure que l’écosystème de données s’agrandit, les gens perdent le contexte de leurs données. Ce que nous essayons de faire, c’est d’aider les utilisateurs à comprendre le contexte des données avant d’écrire leurs requêtes ».
Alison Huselid, vice-présidente senior du produit Starburst, a ajouté que le catalogue de données automatisé peut potentiellement aboutir à de meilleures décisions avant même que la requête ne commence, ce qui conduit ensuite à un processus analytique plus rationalisé.
« Il peut aider les utilisateurs à décider quel type de calcul ils doivent exécuter pour une requête, quel type de cluster ils doivent exécuter, et de quel type d’échelle ils ont besoin », avance-t-elle. « Cela peut vous aider à prendre des décisions plus intelligentes au fur et à mesure que vous avancez sur le chemin de l’obtention des informations réelles que vous essayez de dériver ».
Quant au client Python, il doit permettre aux data scientists d’accéder à l’infrastructure de Starburst avec des outils familiers.
En particulier, cet ajout est une réponse aux demandes des clients qui souhaitent migrer les charges de travail PySpark (donc Apache Spark, un autre moteur utilisé pour transformer de données) vers Starburst sans réécrire le code, selon l’éditeur.
Doug HenschenAnalyste, Constellation Research
Doug Henschen remarque que, dans l’ensemble, les nouvelles fonctionnalités font partie du plan de Starburst visant à élargir ses capacités en vue de proposer une plateforme de données unifiée. Contrairement aux acteurs tels qu’Alteryx et AtScale, qui ont eu une décennie ou plus pour développer des plateformes analytiques, Starburst est encore en phase de démarrage. Il ne part pas non plus du même point de départ.
« Toutes ces mesures visent à élargir les capacités de la plateforme Starburst afin qu’elle puisse devenir la plateforme unique de données d’une entreprise », remarque l’analyste de Constellation Research.
Reste à savoir si Starburst est tout à fait prêt pour cela. Les nouvelles fonctionnalités le mettent dans la bonne voie, estime Doug Henschen.
« Starburst comble les lacunes en matière de performances grâce à une approche de type “data fabric”, qui consiste dans le fait de “jouer les données là où elles se trouvent”, plutôt que de se donner la peine de dépenser de l’argent pour placer les données dans un entrepôt centralisé », rappelle l’analyste.
À l’avenir, il faudra rationaliser le Data Mesh
Avant les annonces de Datanova, Starburst avait déjà mis l’accent sur la découverte des données.
En novembre, le fournisseur a dévoilé des fonctions de découverte et de gouvernance des données lors de la conférence AWS re:Invent. En septembre, Starburst a ajouté des fonctionnalités de partage de données.
Plus tard, Starburst prévoit de développer des fonctions de data lineage, selon Vashil Singh.
L’ajout de partenariats pour étendre les capacités, par le biais de connecteurs et d’intégrations, fait également partie de la feuille de route de Starburst, selon Alison Huselid. Par exemple, une intégration avec DBT Cloud a été dévoilée lors de Datanova.
Doug Henschen, quant à lui, a déclaré qu’il aimerait voir Starburst continuer à ajouter des capacités d’administration et de gouvernance, pour faire du maillage des données une approche plus robuste.
« Je ne serais pas surpris de voir de nouvelles caractéristiques et fonctions d’intendance et de gouvernance, conçues pour prendre en charge la combinaison de la liberté décentralisée d’utilisation des données avec des garde-fous et une visibilité centralisés », affirme-t-il. « Le nouveau catalogue de données est un pas dans cette direction ».