carloscastilla - Fotolia
Snowflake renforce les intégrations avec Salesforce
Lors de son événement virtuel #SayHelloToTheDataCloud, Snowflake a déroulé plusieurs fonctionnalités dédiées à son data warehouse cloud. C’était l’occasion de montrer les premiers résultats du partenariat avec Salesforce, l’un des principaux participants de la dernière levée de fonds récoltés par la licorne en février.
Snowflake a annoncé la disponibilité prochaine (concomitante à la release Salesforce Summer’20) d’Einstein Analytics Output Connector et la version bêta d’Einstein Analytics Direct Data for Snowflake.
Le premier outil doit faciliter le transfert de données Salesforce dans Snowflake, tandis que le second permet d’interroger directement depuis Einstein Analytics, les données présentes dans la PaaS. Ces informations ne sont pas forcément issues de l’outil CRM. Elles peuvent provenir d’applications, de tables, de schémas stockés sur Snowflake. « Habituellement, vous devez importer les données dans Einstein avant de pouvoir les analyser, nous éliminons cette étape avec Direct Data puisqu’il est possible d’interroger les données présentes dans Snowflake », déclare Benoît Dageville, co-fondateur et président des produits, chez Snowflake.
Deux connecteurs pour faire la navette entre Einstein et Snowflake
Avec Output Connector, ce sont les données de Salesforce rassemblées dans Einstein Analytics, préparées avec DataPrep, qui peuvent être poussées dans Snowflake.
Si les utilisateurs de Salesforce, notamment d’Einstein Analytics pouvaient déjà transférer leurs données dans Snowflake, la chose s’avère habituellement plus complexes. « Nos ingénieurs travaillent étroitement avec ceux de Salesforce qui ont cherché à proposer un système de connexion le plus simple possible », affirme Benoît Dageville. Concernant Tableau, le dirigeant estime que le partenariat déjà en place avant le rachat couvrait déjà les principaux besoins d’interconnexion entre les deux outils.
Benoît DagevilleCofondateur, Snowflake
Nous avions évoqué avec Benoît Dageville, les tenants et aboutissants du partenariat de son entreprise avec la compagnie dirigée par Marc Benioff. « Le rachat de Snowflake par Salesforce ne nous intéresse pas », répète notre interlocuteur. « Cela n’empêche pas un partenariat d’envergure puisque nos clients utilisent majoritairement Salesforce et combinent nos solutions respectives ».
Data Cloud, l’entrepôt de données sans frontière
En ce sens, l’éditeur présente son Data Cloud comme un moyen de réunifier les données en provenance des différents espaces de stockage dans le nuage.
Cette notion était au cœur des annonces effectuées mardi 2 juin. « Snowflake veut être LE Data Cloud. La manière dont nous avons construit notre plateforme vise à imbriquer les clouds comme AWS, Azure, ou Google », vante Benoît Dageville. « Nous sommes l’union de tous ces clouds ».
Techniquement, cela demande de coupler des régions cloud déployées par différents fournisseurs. Cela permet à Snowflake d’affirmer qu’il propose 21 régions. Il en a annoncé huit nouvelles cette année, contre sept en 2019. La PaaS était d’abord disponible sur AWS, puis sur Azure dès 2018 et Google Cloud Platform depuis 2020.
Pour faciliter cette union, il faut un liant. Cette colle chez Snowflake se nomme data mesh. « Cela permet de connecter chaque région à toutes les autres et de répliquer des données, d’en échanger entre différents cloud et régions et de gérer plus facilement les accès. En clair, nous fournissons un seul système pour une couverture mondiale », résume le dirigeant. « Les utilisateurs veulent retrouver leurs données à un seul endroit sans avoir les chercher dans des silos »
Avec la même technologie, l’éditeur a renforcé les fonctionnalités de sa couche Data Exchange ainsi que celles de sa Data Marketplace, qui n’avait pas encore de nom. Les deux produits restent toutefois en préversion, même s’il est possible de les utiliser en production sous certaines conditions.
Data warehouse, Data lake, plateforme d’échange de données, ETL, gouvernance… Snowflake veut couvrir l’ensemble des usages liés au traitement de la donnée. L’éditeur qui vient du monde de la BI et du SQL doit donc adapter son offre aux nouveaux usages.
Sortir du carcan SQL-BI
Par exemple, l’interface SnowSight permet de compléter automatiquement des requêtes SQL et d’obtenir des visualisations embarquées. Snowflake a également optimisé la recherche de données qui ne seraient pas présentes dans un cluster.
Benoît DagevilleSnowflake
« A l’origine, Snowflake voulait coupler Data warehousing et Big Data, maintenant nous élargissons le type de workload », assure Benoît Dageville.
En ce sens, l’éditeur a présenté la possibilité d’écrire les pipelines de données en Java et en Python. Il veut d’abord rendre disponible un moyen d’exécuter des statements SQL en Java au plus proche des données. Concernant les pipelines Python, particulièrement appréciés par les utilisateurs d’Apache Spark, Snowflake veut s’appuyer sur le modèle de programmation DataFrame, introduit par le projet Pandas.
« C’est une façon beaucoup plus fonctionnelle d’accéder aux données pour les data scientists et les data engineers », explique le dirigeant. Par ailleurs, il rappelle que la PaaS bénéficie de connecteurs vers Dataiku, Databricks ou encore DataRobot. Une fonctionnalité en préversion permet également de charger les données géospatiales dans la PaaS.
Dans la même veine, Snowflake a déployé en préversion les « external functions », un moyen de connecter les pipelines du data warehouse dans le cloud avec des services de traitement de données externes. Pour l’instant, cette fonctionnalité est disponible avec les services AWS puisqu’elles reposent sur le service FaaS Lambda. L’utilisateur appelle une fonction et les données associées dans une requête SQL, Snowflake prépare les données et les envoie vers une passerelle API qui transmet la requête sous HTTPS aux services back-end à distance.
Celui-ci effectue l’analyse ou la transformation de données nécessaire, puis renvoie le message à la gateway AWS qui le transmet à son tour à Snowflake où d’autres traitements peuvent être effectués. Pendant la conférence, l’éditeur a mené une démonstration où des mails sont analysés, puis traduits avec Amazon Translate avant d’être gérés dans le data warehouse cloud. Ces pipelines sont dynamiques et les données raffinées peuvent faire l’objet de plusieurs traitements « au fil de l’eau ».
Cette approche unifiée et ces externalisations réclament une bonne gouvernance des données. Et si de par son infrastructure et ses origines américaines, Snowflake est soumis au CLOUD Act et au Patriot Act, il n’empêche qu’il veut renforcer la confidentialité des informations traitées depuis sa plateforme. L’éditeur avait déjà mis en place la possibilité pour les clients de gérer eux-mêmes leurs clés de chiffrement. Toutefois, cette plateforme qui sert aux entreprises à retrouver l’ensemble des données à seul endroit, il faut pouvoir gérer les accès.
D’où l’introduction en préversion privée de l’offuscation de données dynamique (« Dynamic data masking » en VO). « Il est possible de définir des règles d’offuscation pour anonymiser tout ou partie des données présentes dans une colonne d’une table. L’accès aux informations via une requête dépend ensuite de votre rôle dans votre entreprise », illustre le cofondateur de Snowfake. Il est également possible de se connecter à des services de tokenisation externes en commençant d’abord par Protegity.
L’éditeur envisage par la suite d’intégrer une fonctionnalité de data lineage. « Nous avons déjà le début de cette fonction, puis que nous sommes opérateur de données avec Data Marketplace, mais c’est encore une ère d’investissement », précise Benoît Dageville.
Quid de l’introduction en bourse ?
La croissance de Snowflake n’a pas faibli, malgré la crise en cours. « Nous avons constaté une accélération de la consommation de notre système et même au-delà de nos prévisions », assure Benoît Dageville. « Je ne veux pas me réjouir de la situation, mais je pense que nous faisons partie de ceux qui ont beaucoup de chance », ajoute-t-il prudemment.
Toutefois, la crise laisse planer le doute sur la possible introduction en bourse de Snowflake, originellement prévue pour cet été. « Il y a plein de choses à faire pour être prêt [à l’introduction en bourse] et quand vous êtes prêt, il faut décider du moment de le faire suivant différentes variables. Notre philosophie n’a pas changé concernant ce point-là. Ce n’est sûrement pas la meilleure période pour le faire, mais nous verrons », conclut Benoît Dageville.