Jakub Jirsk - Fotolia
Qualité des données : Talend veut démocratiser ses outils
Désormais sous le giron de Thoma Bravo, Talend est bien décidé à démocratiser l’usage de ses outils d’intégration et de qualité des données, ainsi qu’à améliorer ses solutions de data gouvernance.
Après la complétion en septembre de son rachat par la société capital-investissement Thoma Bravo pour 2,4 milliards de dollars, le Franco-Américain Talend né à Suresnes (ville, avec Nantes, qui accueille encore aujourd’hui une grande partie de ses équipes R&D) a présenté le 3 novembre les nouveautés de sa version Fall’ 21.
« Nous avons réalisé un sondage auprès de nos clients. Environ 60 % des dirigeants interrogés n’ont pas toujours confiance dans les données qu’ils utilisent, et 78 % d’entre eux ont des difficultés à prendre des décisions basées sur les données », déclare Christophe Toum, directeur de la stratégie produit chez Talend en guise d’introduction. « Ce que l’on a fait jusqu’à aujourd’hui était nécessaire, mais ce n’était pas suffisant. Nous avons mis en place la mécanique d’accès, de collecte, de nettoyage et de transformations de données. Il manque une composante, il faut que l’on passe au stade supérieur », juge-t-il.
Le docteur Talend au chevet des données
D’un point de vue marketing, l’éditeur se veut au chevet de la « santé des données ». « C’est une vision », prévient Christophe Toum. « Cela commence à se traduire dans un certain nombre de produits, mais ce n’est pas fini ; cela passe par de la méthodologie, des produits, des services pour aider nos clients à découvrir, gérer et comprendre leurs données, afin d’en tirer de la valeur commerciale », illustre-t-il. Talend compte ainsi contribuer à la création d’indicateurs pour décrire la santé des données dans les entreprises. « Ce serait le saint Graal », déclare le directeur.
En ce sens, le spécialiste de l’intégration et de la préparation de données a présenté quatre annonces « majeures » dans son portfolio.
La première témoigne de deux ambitions de l’éditeur. D’une part, tout comme les autres acteurs majeurs du secteur, Talend souhaite se rapprocher des fournisseurs de data warehousing. D’autre part, il compte bien améliorer ses capacités de qualité de données.
Démocratiser des outils et des pratiques
Talend a ainsi noué un partenariat avec Snowflake afin de porter nativement le Trust Score, un système de note pour évaluer la qualité et la conformité d’un jeu de données, sur Data Cloud, le data warehouse multicloud de Snowflake. « Le Trust Score commence véritablement à décoller, notamment parce que nous avons des partenaires qui s’y intéressent fortement, à commencer par Snowflake », indique Christophe Toum.
Dans ce contexte, le Trust Score for Snowflake n’est pas calculé sur des instances gérées par Talend. Il appelle les ressources de calcul au sein des instances Snowflake des clients. Pour cela, Talend s’appuie sur les fonctionnalités Snowpark et UDF de son partenaire qui lui permettent d’exécuter du code Java depuis le « virtual warehouse ». Pour rappel, Data Cloud dépend nativement d’un moteur SQL.
Le Trust Score avait été présenté l’année dernière comme un module de Talend Data Platform. Après le retour de ses clients, Talend a ajouté une méthode de calcul pour son score. Si au départ, l’éditeur effectuait seulement une estimation basée sur un échantillon de données, ses clients ont réclamé de pouvoir obtenir une notation basée sur l’ensemble des lignes contenues dans une table. Ce traitement consomme davantage de ressources, mais rendrait le Trust Score plus fiable, selon Christophe Toum.
De plus, Talend espère démocratiser son système de notation des jeux de données afin de l’intégrer dans les outils directement utilisés par les métiers, tels le CRM de Salesforce ou la plateforme BI de Tableau, mais aussi dans les autres services de datawarehousing, de type BigQuery.
Mais un score de confiance ne suffit pas à assurer la qualité des données. Certaines entreprises ne savent pas comment remédier et corriger les erreurs dans leurs data sets. À ceux-là, Talend propose Data Quality Service. Christophe Toum tient à être clair : il ne s’agit pas d’un logiciel, mais d’une « prestation », comme pourrait le proposer une ESN. Talend entend mandater ses « experts » et ceux de ses partenaires pour mettre en place les efforts de remédiation en s’appuyant sur ses frameworks et ses outils. L’éditeur propose entre autres de déployer des tableaux de bord afin de superviser la qualité des données au quotidien.
Christophe ToumDirecteur de la stratégie produit, Talend
« Talend a toujours proposé des services, de l’expertise produit et non pas de la prestation. C’est maintenant le cas », déclare le dirigeant. « Il s’agit d’apporter une méthodologie et de bonnes pratiques sur la mise en place d’indicateurs de qualité de données au sein d’une entreprise ».
Selon notre interlocuteur, c’est une prestation continue. « Nous voudrions que nos clients comptent sur Talend pour déléguer complètement la mesure qualité des données à cette offre de services », affirme Christophe Toum. Data Quality Service s’adresse plus particulièrement « aux entreprises de taille intermédiaire qui n’ont pas les moyens de mettre en place ce type de centre d’excellence ». Data Quality Service est facturé à la souscription forfaitaire… comme la majorité des produits Talend.
Talend joue la carte Stitch Unlimited
Cette question de la tarification concerne également Stitch, l’ETL cloud racheté par l’éditeur en 2018. Ce concurrent direct de Fivetran facturait jusqu’alors au volume, au nombre de lignes répliquées par mois. Or ce modèle ne reflète pas la position tarifaire de Talend, prônant un modèle unique, à la souscription. En ce sens, l’éditeur a annoncé Stitch Unlimited, une tarification fixe mensuelle pour un usage « illimité » de l’ETL, sans frais supplémentaires jusqu’à l’ingestion de 15 milliards de lignes par mois vers cinq destinations. « Aucun de nos clients Stitch n’a déjà atteint cette limite : les plus gros utilisateurs ingèrent moins de 1 milliard de lignes par mois », affirme Christophe Toum. La formule classique ne permettait que d’envoyer les données vers une seule cible par compte.
En réalité, il existe deux forfaits : Unlimited et Unlimited Plus. Les deux niveaux offrent des capacités similaires (60 jours de rétention de logs, respect des réglementations SOC2 et HIPAA, un support platinum, SSO, etc.). Unlimited Plus doit offrir en sus l’accès à un responsable du support par client et une « connectivité avancée ». « Il est toujours possible d’utiliser Stitch en mode consommation », précise Christophe Toum. « Unlimited s’adresse à des clients qui souhaitent une stabilité après avoir constaté une augmentation de leur consommation ». Stitch a également le droit à de nouveaux connecteurs vers SQL Server 2012 et Azure SQL Database.
Justement, en matière de connectivité et partage de données, la société embarque dans Talend Data Fabric Self-service API Sharing, un outil no-code permettant aux data engineers de bâtir des API REST « en quelques minutes » pour exposer des jeux de données. En l’occurrence, l’éditeur s’appuie sur le standard Odata (Open Data Protocol) utilisé par Salesforce, Microsoft (PowerBI, Excel) et d’autres.
Pour la génération de la documentation, Talend s’appuie sur la spécification OpenAPI 3.0 (OAS). En clair, les API générées avec l’outil peuvent être orchestrées depuis la plateforme d’API Management choisie par le client. Cette solution sera disponible au cours de ce quatrième trimestre 2021.
De la même manière, le Studio de Talend a été « modernisé » afin de l’alléger, le rendre modulaire et apporter des connecteurs vers Spark, Databricks, GCP, ou encore Cloudera. Enfin, l’éditeur prépare la version 8 de Talend Data Catalog qui devra apporter des modèles de données adaptés aux cas d’usage des clients, une meilleure classification des informations et la possibilité de personnaliser les objets et les rôles des utilisateurs. Ces modifications visent également à démocratiser les outils de Talend auprès d’un plus grand nombre d’usagers, moins spécialisés.
De la qualité à la gouvernance des données
Dans ses Magic Quadrant 2021 consacrés aux solutions de qualité et d’intégration de données, Gartner place Talend parmi les leaders. Cependant, les analystes considèrent que l’éditeur n’a pas su faire autant ses preuves sur le volet de la gouvernance de données. « Nous voulons investir sur la gouvernance des données et améliorer notre offre », reconnaît Christophe Toum. « Il est impossible de diffuser ce type d’outils dans l’entreprise sans la couche de gouvernance qui l’accompagne. C’est une nécessité pour nous », ajoute-t-il.
Justement, le dirigeant considère que cette gouvernance passe aussi par le Talend Data Catalog, qui est amené à évoluer pour devenir le point d’accès central des données. Mais d’autres acteurs sont plus avancés dans les domaines du catalogage des données et dans la recherche cognitive (cognitive search ou insight search).
« Nous n’allons pas nous substituer aux solutions employées par nos clients, nous allons nous intégrer avec ces dernières. Nous allons aussi les compléter avec nos capacités d’analyses sémantiques et nos algorithmes embarqués dans notre Data Catalog », déclare Christophe Toum. En ce sens, Talend développe des « crawlers » afin de découvrir les métadonnées dans les tables en commençant par Snowflake et de les charger automatiquement dans un inventaire de jeux de données, dont celui associé au Trust Score.
Par ailleurs, Talend annonce Data Quality Rules Designer, une interface graphique pour manipuler sans code un moteur générant des règles de qualités de données. « Cela permet de faire une bibliothèque de règles de qualité que l’on peut utiliser dans une grande partie des produits Talend », affirme le directeur de la stratégie produit.
Reste que Talend doit encore perfectionner ses outils de Change Data Capture, selon Gartner. « C’est un point que nous devons améliorer, notamment dans le cadre de migration longue vers le cloud en mode lift and shift, même si Stitch apporte une première réponse », déclare le dirigeant. Enfin, Gartner observe que le modèle économique packagé de Talend ne convient pas à tous ses clients. « Cela fait un petit moment que nous réfléchissons sur l’optimisation de notre tarification afin d’offrir une approche plus à la carte. Nous cherchons une réponse satisfaisante pour nous et nos clients », réagit Christophe Toum.