Talend arrive sur le marché du catalogue de données
La prochaine version de la plateforme de l’éditeur comprendra un outil de catalogue de données destiné à trier, organiser et classer les données. Conformité, qualité des données, historique et accès des données en self-service aux analystes et métiers sont des cas d’usage.
Il faudra désormais compter sur Talend sur le marché des catalogues de données. Le spécialiste de l’intégration de données a officiellement présenté Talend Data Catalog, un outil de classification et d’organisation des données, qui habitera la future version 7.1 (la Fall 18 dans le langage de l’éditeur) de la plateforme dont la sortie est prévue dans un mois, a confirmé Mike Tuchen, le CEO du groupe. Celui-ci intervenait à l’occasion de Talend Connect qui s’est tenu le 18 octobre à Paris.
Le catalogue de données est devenu une pièce centrale des outils de gouvernance des données. Il sert non seulement à classer et trier les données, mais permet également d’en valider la conformité en suivant son parcours (data lineage). Il est un complément naturel aux outils de qualité et de préparation des données. Surtout, il répond à un besoin clé des entreprises : depuis des années, elles ont passé une partie de leur temps à absorber de grands volumes d’informations pour les plonger, indifféremment, dans des lacs de données, ou un autre vaste repository. Le catalogue revient alors à redonner une forme exploitable à ces données éparpillées, pour au final – et c’est là la valeur de la technologie – les proposer à ceux qui les utilisent, analystes, métiers, développeurs ou encore partenaires. Le tout en self-service.
Ce marché compte déjà nombre d’acteurs , à l’image d’Informatica, le cadre du secteur – et grand concurrent de Talend -, d’IBM mais également des pure-players comme Alation ou Waterline Data – pour n’en citer que certains.
« Ce catalogue de données doit permettre de comprendre ce que sont les données et où les trouver », explique Mike Tuchen lors de l’événement, rappelant que 25 % du temps des analystes est passé à identifier et à dupliquer des données qui existent déjà dans les systèmes des entreprises. Ce catalogue doit donc favoriser l’utilisation des bonnes données (avec le bon niveau de qualité et de conformité) et leur distribution aux bonnes personnes.
Du Marchine Learning pour accélérer la découverte des données
Dans le détail, la première étape de cet outil comprend la découverte des données. Il livre une cartographie minutieuse des méta-données qui définissent l’information. La solution s’appuie pour cela sur des crawlers qui extraient ces données des données. Un tableau de bord permet de les rechercher, d’en connaître le pedigree et d’observer les connexions qui existent entre elles – et donc leur usage. Il établit également des niveaux de criticité. Le Machine Learning, qui est infusé à la plateforme, permet d’automatiser cette partie. L’outil permet également de descendre plus granulairement dans l’information via une analyse sémantique de la structure et du contenu de l’information. Cela pour la classer et l’organiser. Cette approche donne aussi la capacité de suivre l’historique de la donnée, de tracer sa provenance pour établir une politique de gouvernance.
L’autre apport se trouve dans la qualité des données. Ce catalogue permet « d’orchestrer le nettoyage » de l’information, assure Laurent Bride, le CTO de Talend. Mais pour cela, comme il l’avait évoqué lors de l’édition 2017 de cet événement, l’outil favorise la collaboration avec les spécialistes, métiers ou analystes, pour valider la qualité. Un système de scoring, lui-aussi calculé à partir du Machine Learning, affiche un degré de qualité et de conformité. L’idée au final est de fournir « une source unique de données fiables », rappelle encore Mike Tuchen, lançant qu’en cela, la mécanique du catalogue de données est un atout pour la mise en conformité, notamment vis-à-vis du RGPD. Un argument déjà entendu chez Waterline Data, autre acteur de ce segment, qui avait d’ailleurs lancé une déclinaison de son offre sur ce terrain.
Pour l’heure, la plateforme de Talend, la Data Fabric, proposera un catalogue de données uniquement sur site. L’outil sera placé sur le cloud de Talend début 2019.
Spark en serverless et intégration de Restlet
A l’occasion de son événement parisien, Talend a également annoncé une intégration native de Databricks sur Azure dont l’ambition est de proposer un service cloud Spark bâti sur une architecture serverless. L’idée est d’apporter un environnement flexible aux data scientists depuis la plateforme Talend pour « accélérer et automatiser la création de modèles de Machine Learning », mais sans avoir à gérer le provisioning de l’infrastructure, a rappelé Mike Tuchen.
L’autre point clé de cet événement a été l’intégration officielle de la société Restlet, rachetée par Talend en novembre 2017. Spécialisée dans la création et la gestion d’API, Restlet est digérée sous la forme d’un service cloud de gestion d’API (Services API) dans la plateforme Talend. Ce service, qui sera accessible avant la fin 2018, doit constituer la brique APIsation des flux de données, alors créés, nettoyés et manipulés par l’environnement Talend. Il sert à faciliter le partage des données.