vectorfusionart - Fotolia
Snowflake dévoile sa note d’intention pour le futur de Data Cloud
Après une introduction en bourse dans l’ensemble réussie en septembre dernier, Snowflake organise cette semaine son événement annuel Data Cloud Summit. S’il préfère ne pas commenter cette récente opération, l’éditeur a présenté quelques améliorations de sa plateforme en s’appuyant sur les bases qu’il a posées en juin 2020.
Snowflake veut mettre en avant la croissance de sa place de marché d’échange d’informations qui accueille désormais plus de 100 fournisseurs de jeux de données. Il assure que la moitié d’entre eux ont rejoint sa marketplace au cours des quatre derniers mois. Pour les utilisateurs de ces data sets sur étagère, Snowflake entend proposer des « Data Services ». Ni plus ni moins, la marketplace introduit des clients avec des tiers capables de leur offrir des services analytiques dédiés à des tâches spécifiques.
Lors de sa conférence, l’éditeur a montré la solution de Quantifind qui se spécialise dans la détection de la fraude. Ce dernier propose des modèles prédictifs préentraînés. Un client de Snowflake peut appliquer ces modèles sur ses propres datas par le biais des External Functions (toujours en préversion publique), pour appeler des services de traitements de données via des fonctions FaaS (serverless). Ces FaaS font interagir les données de manière bidirectionnelle avec des outils disponibles sur AWS, Microsoft Azure, et bientôt sur Google Cloud.
Partage et gouvernance à la sauce Snowflake
Sur la plateforme Data Cloud elle-même, l’éditeur propose désormais une fonctionnalité en préversion privée pour supporter les données non structurées. Toutefois, il n’explique pas encore la méthode employée pour contrecarrer les limites actuelles exposées dans sa documentation.
Christian KleinermanSVP Produit, Snowflake
Christian Kleinerman, SVP Produit chez Snowflake, a présenté une nouvelle capacité d’étiquetage des données. « Nous allons permettre aux clients d’associer des paires d’attributs-valeur. Cela peut servir soit pour des annotations de classification (la gestion des métadonnées), soit pour créer un dictionnaire commercial (où je peux organiser mes données) », illustre-t-il lors d’une conférence de presse. Le dirigeant imagine aussi la possibilité de retrouver des ressources dans une architecture Snowflake.
En outre, les responsables espèrent améliorer la gouvernance des données avec une nouvelle fonctionnalité nommée Row Access Policies. Celle-ci permet de masquer le contenu de certaines lignes ou colonnes dans un fichier, en se basant sur le rôle attribué à l’utilisateur. Elle hérite de la capacité d’obfuscation de données dynamique.
Snowpark, une rampe pour les développeurs Scala, Python et Java
Surtout, l’éditeur prévoit d’apporter le support des langages de programmation Java Scala et Python, en plus de SQL sur la plateforme Data Cloud. En cela, il faut principalement retenir l’annonce de Snowpark, une « famille de librairies » d’API optimisées. « Snowpark vous permet d’écrire du code dans les différents langages mentionnés directement contre le moteur de Snowflake en recourant à des concepts familiers comme les DataFrames », assure Christian Kleinerman.
Les data scientists et les data engineers pourront prochainement exécuter des workloads ETL/ELT, de préparation de données, d’appels d’External Functions ou encore de feature engineering via une API DataFrame. Actuellement, il faut passer par un organe de traitement comme Spark ou adresser un connecteur vers un environnement Python, pour utiliser Snowflake avec d’autres langages. En juin dernier, le président de l’entreprise Benoît Dageville nous avait déjà présenté ce moyen de lancer des instructions déclaratives SQL en Java et en Python sur le moteur de Snowflake. Snowpark traduit cette intention avec un nom et le support des DataFrames.
La technique déployée avec Snowpark imite les capacités de Spark, mais en l’optimisant pour les particularités de l’architecture de l’éditeur. Évidemment, cette annonce résonne comme une réponse à Databricks qui effectue, lui, le chemin inverse, partant de Spark, Scala et Python, pour aller vers SQL. Toutefois, Snowflake ne veut pas laisser entendre qu’il déprécie les connecteurs vers les plateformes telles que Dataiku, DataRobot, ou même Databricks.
Une feuille de route (trop ?) chargée
Christian KleinermanSVP produit, Snowflake
Par ailleurs, Snowflake développe Query Acceleration Service, une technologie pour réduire la durée d’exécution des requêtes sur de grands ensembles de données. « C’est assez simple à utiliser, vous décidez d’un volume de ressources additionnelles disponibles pour un entrepôt virtuel. Le service choisit quand il est bénéfique de les exploiter, et tire profit de ses capacités de parallélisation » vante Christian Kleinerman. Dans la même veine, Search Optimization Service doit accélérer le temps de recherche des données.
Si l’éditeur veut offrir une expérience centralisée, la plupart des nouveautés qui doivent lui permettre d’atteindre cet objectif demeurent en préversion. Il lui faudra encore faire ses preuves sur l’ensemble des projets en développement : la feuille de route déborde d’intentions. Ses clients l’attendent au tournant, les investisseurs aussi. Et ce même si le SVP produit assure que de nombreux utilisateurs exploitent déjà certaines des fonctionnalités en cours d’élaboration.