Fivetran, l’intégration de données façon ELT
Fivetran est une startup californienne basée à Oakland. Elle édite un ELT managé dans le cloud apprécié dans le domaine de l’analyse marketing. La licorne compte bien se faire connaître auprès des grands comptes et des entreprises européennes.
Créée en 2012 par George Fraser et Taylor Brown, Fivetran pousse un ELT managé afin de bâtir automatiquement des pipelines pour transférer des données SQL de différents logiciels et bases de données vers des data warehouse cloud et des outils BI. Elle justifie son offre par la multiplication des sources de données et la nécessité de les centraliser à des fins analytiques. « La société avait pour projet de développer une plateforme analytique de bout en bout, mais les fondateurs se sont rendus compte que le vrai problème résidait dans l’intégration de données », déclare Liliane Roux, responsable commerciale EMEA chez Fivetran.
La startup considère que les acteurs historiques du marché ETL ont joué sur la personnalisation des pipelines, à outrance. Au lieu de cela, Fivetran préfère miser sur la standardisation de l’extraction et le chargement de données brutes vers la destination, « puis les transformer après ». Son outil low-code/no-code vise à faciliter le travail des data engineers, voire à s’en passer pour les tâches les plus simples.
L’ELT dispose deux modes d’extraction de données : Push et Pull. Les connecteurs Pull (API SOA ou Rest, ODBC/JDBC) permettent à l’outil de télécharger automatiquement les datas à une fréquence fixe. Les opérateurs Push fonctionnent comme un système orienté événements. Ils envoient des données à Fivetran, qui les stocke en JSON dans un bucket dont il retire périodiquement des données.
Logiquement, les données sont chargées dans l’entrepôt de destination, puis transformées dans cet espace, en s’appuyant sur les ressources de calcul et de stockage à disposition. Mais avant le chargement, Fivetran effectue quelques transformations automatiques.
Ces modifications ont lieu quand les types de données ne sont pas supportés dans la cible, « de petites manipulations de données » pour optimiser le format à la destination et des corrections de schémas, dans le même but.
Puis, les données sont placées temporairement dans un espace de stockage (sur AWS, Google Cloud ou Azure suivant la région du client), où ces copies sont cryptées au repos (à l’aide d’un algorithme AES256) et conservées 24 heures maximum (une règle automatique vide les buckets correspondants).
Enfin, les données sont chargées dans la destination et l’utilisateur peut effectuer des transformations via des scripts SQL. Toutes les phases de transport de la donnée sont chiffrées par le biais du protocole TLS 1.2 et l’éditeur supporte les tunnels de connexion SSH ou VPN IPSec. Oui, pour être précis, il faudrait donc plutôt parler d’ETLLT.
De la maîtrise des schémas de données
Le cœur du prétraitement (le premier T de notre néo-acronyme ETLLT) repose sur les types de données, mais surtout sur les schémas. Fivetran réplique les schémas des bases de données sources, mais a développé ses propres structures pour chacune des sources applicatives, « ce qui simplifie l’analyse de données ». Fivetran maintient elle-même ces schémas et les métadonnées associées, « la procédure est complètement automatisée pour l’utilisateur », assure un porte-parole de l’entreprise. C’est une capacité mise en avant par Gartner dans son Magic Quadrant 2020 dédié à l’intégration de données.
À l’intérieur de sa documentation, l’éditeur précise, dans son modèle de partage des responsabilités, que son rôle est de maintenir les schémas, nettoyés et normalisés, standardisés, ainsi que de s’assurer de la qualité des connecteurs tout comme les possibles problèmes au moment de l’extraction et du chargement des données.
Les destinations cibles de l’outil sont avant tout des datawarehouse cloud. L’éditeur se présente comme un partenaire de choix pour migrer des données vers Snowflake, Amazon RedShift, Azure Synapse Analytics, Google BigQuery ou encore Databricks.
« La majorité de nos clients poussent leurs données vers les datawarehouse de Google Cloud, d’AWS, Microsoft Azure et sur les services de Snowflake », indique Liliane Roux.
Fivetran étend depuis peu ses capacités de destination vers les bases de données cloud, dont MySQL, SQL Server et PostgreSQL. En outre, des SGBD sur site ou dans le cloud comme MongoDB, Oracle, et bientôt Db2, peuvent être des sources. Fivetran peut aussi se connecter aux services orientés événements (Kinesis, Kafka, Segment, Snowplow, Webhooks), aux services FaaS (Lambda, Azure Functions, Google Cloud Functions) où un utilisateur peut charger manuellement des tables SQL.
L’analytique marketing, les racines de Fivetran
Cependant, Fivetran a d’abord gagné ses lettres de noblesse auprès des directions métiers qui utilisent des applications de suivi client ou de campagne marketing : Salesforce, Marketo, Google Ad, Microsoft Ad, Magento ou encore Criteo. Ce sont les connecteurs les plus nombreux. « Nous avons près de 200 connecteurs prêts à l’emploi. Notre connecteur Salesforce est extrêmement apprécié », vante Liliane Roux. « Aujourd’hui, nous évoluons pour nous connecter aux bases de données entreprises comme Oracle, IBM DB2 et SAP S4/HANA ».
De fait, de l’aveu même de Fivetran dans sa documentation, les transformations que peuvent effectuer les utilisateurs sont simples. Ils peuvent appliquer leurs propres scripts SQL. « Il est de votre responsabilité d’écrire des requêtes SQL qui transforment et modélisent les données que nous livrons dans un format adapté à vos besoins particuliers. Il est de votre responsabilité de maintenir régulièrement la transformation et la modélisation au fur et à mesure que le schéma canonique évolue. Il est de votre responsabilité de répondre à un changement de rupture opérationnelle connue et de suivre les instructions pour rétablir le service », écrivent les auteurs de la documentation.
Le manque de connecteurs vers les solutions d’entreprise et les capacités de transformation moins poussées que la concurrence étaient deux raisons invoquées par Gartner pour catégoriser Fivetran comme un acteur de niche en juillet 2020.
L’éditeur mise surtout sur sa capacité de synchronisation incrémentale des données toutes les cinq minutes à 24 heures. Il n’y a pas besoin de recharger la totalité des jeux de données entre la source et l’entrepôt de données « Les données sont disponibles rapidement. Nous simplifions la vie des équipes marketing et analytiques », affirme Liliane Roux.
L’Europe et la France dans le viseur
Liliane RouxResponsable commerciale EMEA, Fivetran.
Fivetran compte près de 500 salariés, dont 80 collaborateurs basés en Europe, plus particulièrement à Dublin. C’est depuis la capitale irlandaise que la société s’adresse au marché européen. « Notre premier marché, c’est le Royaume-Uni, la France, l’Allemagne. Nous investissons davantage sur la France cette année ». En France, Spendesk et Phenix sont clients. La startup est davantage implantée aux États-Unis et revendique une croissance confortable en région APAC.
« Nous travaillons principalement avec des clients qui ont déjà migré ou sont nativement dans le cloud. Notre croissance est organique dans les sociétés de 200 à 500 employés et nous avons signé quelques clients dans des groupes de plus 3 000 employés, mais ce n’est pas notre base installée en Europe. Nous nous adressons de plus en plus aux grands groupes », précise la responsable commerciale EMEA.
Il faut dire que le mode de tarification est adapté à ces ETI. Fivetran s’appuie sur des forfaits (Starter, Standard, Enterprise : de 1 à 2 dollars par crédit par mois et possibilité de souscrire à une offre annuelle) qui ajoutent des services supplémentaires pour la protection des connexions, la gestion des rôles, le temps de réaction du support et la fréquence de synchronisation des données. Ensuite, le paiement dépend de l’usage. « Notre tarification est basée sur le nombre de lignes actives modifiées par mois », déclare Liliane Roux.
Liliane RouxFivetran
Ses concurrents principaux sont Stitch, racheté par Talend en 2018, et Funnel du côté des traitements de données Marketing. « En France, plus nous nous adressons aux grands comptes, plus nous rencontrons Talend ou d’autres acteurs. Avec la crise actuelle, même les entreprises du CAC40 ont tendance à étudier des solutions comme les nôtres. Du même coup, les intégrateurs s’intéressent et viennent vers nous », renseigne Liliane Roux.
En cinq levées de fonds auprès d’acteurs comme CEAS Investments, Matrix Partners et General Catalyst ou Andreessen Horowitz, Fivetran a récolté plus de 161 millions de dollars, dont une série C de 100 millions en juin 2020, faisant grimper sa valorisation à 1,2 milliard de dollars. À la fin du mois de février, la société a annoncé avoir doublé ses revenus et son nombre de clients. En juillet 2020, Gartner évoquait 1 200 clients.