Cet article fait partie de notre guide: Ces nouveaux moteurs de l’analytique moderne

Entrepôt de données : Snowflake monte dans le Cloud français

La société américaine développe une architecture type qui sépare les données de leurs traitements, pour favoriser les capacités de dimensionnement propre au Cloud. La technologie repose sur un moteur SQL

par

Cyrille Chausson, Rédacteur en Chef

Publié le: 31 oct. 2017

Quelque mois après son installation au Royaume-Uni, l’éditeur américain Snowflake étend un peu plus son empreinte en Europe en ouvrant un bureau en France. La société a décidé d’attaquer fermement le marché mondial de l’entrepôt de données, en faisant valoir un ADN 100% Cloud public, là où les acteurs historiques de ce secteur peinent justement à traduire leur architecture bien en place, ainsi que leurs modèles, vers ce nouveau modèle de consommation de l’IT. Snowflake s’installe désormais à Paris pour cibler les entreprises françaises, ainsi qu’à Munich et Amsterdam d’ici la fin novembre. Cette conquête se poursuivra ensuite en Suède à Stockholm en février prochain.

Créée en 2012, par deux experts du monde des bases de données, Thierry Cruanes et Benoît Dageville, respectivement, fondateur et architecte , et CTO, Snowflake a aussi l’autre particularité d’avoir pour CEO depuis 2014 Bob Muglia, un autre personnage bien connu du monde de l’IT pour avoir tenu les rênes des activités Server & Tools de Microsoft. Cet historique, ainsi que son empreinte originelle aux Etats-Unis, lui, ont d’ailleurs permis de lever 210 millions de dollars depuis sa création, dont une dernière mise au pot, très récente, de Capital One, la banque américaine – via son fonds d’investissement - , en plus des fonds Iconiq Capitale et de Madrona Venture Group et des actionnaires historiques.

Ce qui a séduit ces investisseurs, c’est l’approche prônée par Snowflake. La société a développé une solution qui n’ambitionne pas uniquement de porter les principes de l’entrepôt de données dans le Cloud public (on ne parle pas ici de Cloud privé), mais d’en exploiter les spécificités qui ont conduit les entreprises à y avoir recours. Si le marché des entrepôts de données est le terrain de jeu de grands du secteur comme Oracle, Teratada, ou encore IBM avec Netezza, Snowflake veut leur donner le change uniquement dans le Cloud. Même si finalement, les offres sont depuis apparues, comme RedShift (issu du rachat de Parccel, qui n’était d’ailleurs dans le Cloud à l’origine), ou encore Azure Data warehouse – voire Big Query chez Google dans une certaine mesure.

Pour cela, SnowFlake a façonné de zéro une solution qui vise certes à réduire au minimum les tâches d’administration – le Cloud –, mais a surtout conçu une architecture pour optimiser les principes de dimensionnement et d’élasticité du Cloud. L’idée étant de pouvoir gérer de grosses volumétries de données,et d’en autoriser des traitements concurrents, ad lib, explique Thibaut Ceyrolle, vice-président ventes pour la région SEMEA de Snowflake, qui a la charge du bureau en France.

Le stockage isolé des traitements

Et justement. Snowflake s’adosse à une architecture qui découple la couche stockage de celle dédiée au traitement des données. Mais pour cela, la technologie exploite les services d’AWS – et uniquement : S3 sert de socle pour le stockage et EC2 pour virtualiser les fonctions de traitement qui tournent au-dessus. Le principe de Snowflake est ainsi de permettre d’isoler les données et de provisionner des services de traitements, tout en exploitant les capacités de dimensionnement du Cloud (scale-up / scale-down / scale-out), souligne le responsable.

Un département finance lance par exemple des serveurs pour effectuer les traitements, les utilise pour la période donc il a besoin, et éteint ses ressources par la suite. L’intérêt est que le département marketing peut également exploiter ces mêmes données dans le même timing que le département finance, illustre Thibaut Ceyrolle.

L’autre particularité de la technologie Snowflake est sa capacité à pouvoir ingérer des données tant structurées que semi-structurées, et de proposer un moteur SQL pour les interroger ou les relier à des écosystèmes bien en place dans les entreprises, comme des applications métiers ou encore – et c’est un point clé – les outils de BI, comme Tableau ou Qlik. « Pas de données non structurées car l’analytique d’entreprise ne se fait pas sur ce pan », ajoute-t-il.

Une tarification alignée sur AWS

Snowflake confirme logiquement s’aligner sur les prix d’AWS en matière de stockage et entend répercuter la facturation à la minute, mise en place récemment par AWS, sur la couche traitement de Snowflake. L’idée est de facturer le coût réel des clusters Snowflake utilisés pour traiter les données. C’est une demande des clients, explique-t-il, ajoutant que cela permettra aussi à la société d’aller chercher une autre typologie de clients.

Commercialement, Snowflake a huilé sa mécanique en proposant plusieurs types d’instances, dont la taille reprend les canons de la mode (de XS à XXX- L). « Un cluster utilisé pendant une heure représente un crédit d’utilisation de Snowflake pour le traitement », explique le vice-président. Ce dispositif double en fonction des tailles d’instances. Cela est ajustable en fonction des requêtes et de la volumétrie des données à charger. En gros, les types d’instances d’EC2 sont ré-instanciés dans Snowflake avec une couche d’abstraction supplémentaire.

Tout en restant conscient de la difficulté que le Cloud public représente pour certains secteurs critiques. La société a ainsi développé une offre baptisée Virtual Private Snowflake (VPS). Celle-ci reprend grosso modo l’offre VPC (Virtual Private Cloud) d’AWS et installe un réseau privé et sécurisé. Cela permet d’avoir un environnement cloisonné, où les machines virtuelles EC2 ne sont pas partagées, résume le vice-président. VPS qui constitue le haut de gamme du catalogue de service Snowflake cible avant tout le marché financier.

En France, si Thibaut Ceyrolle note en effet une « forte appétence » du secteur financier, le manufacturing, l’assurance, l’Internet des objets apparait comme des secteurs dynamiques, par leur proximité avec le Cloud. Il cite également l’industrie pharmaceutique, comme Pfizer, un gros client dans le monde. Dans l’Hexagone, Snowflake dispose d’accords mondiaux avec de grands intégrateurs comme Wipro ou Capgemini, mais s’est également rapproché de partenaires, comme Talan, plus spécialisés sur le monde de la donnée.

Au-delà d’AWS ?

Restera enfin une question. Qu’en est-il de la proximité très forte avec AWS, sur qui Snowflake adosse uniquement son architecture ? Thibaut Ceyrolle confirme que « la solution a vocation à être agnostique à un moment donné ». En clair, proposer d’autres Iaas qu’Amazon pour répondre à des demandes de clients (le retail ne veut pas forcément placer ses données chez Amazon), ou encore à la volonté des entreprises de mettre en place des environnements multi-Cloud. « Des tests sont en cours. »

Entrepôt de données : Snowflake monte dans le Cloud français

La société américaine développe une architecture type qui sépare les données de leurs traitements, pour favoriser les capacités de dimensionnement propre au Cloud. La technologie repose sur un moteur SQL

Le stockage isolé des traitements

Une tarification alignée sur AWS

Au-delà d’AWS ?

Pour approfondir sur Datawarehouse

Analytique graphe : Neo4j déploie Graph Data Science sur Snowflake

Polaris : Snowflake veut élargir l’accès aux tables Iceberg par des moteurs tiers

MyReport (ex-Report One) prépare le lancement de son offre SaaS

Container Services : Snowflake devient une « Data PaaS »