dessauer - Fotolia
Le data catalog, bientôt un livre ouvert pour les métiers
Certains éditeurs de catalogues de données mettent en avant leur volonté de s’adresser directement aux métiers. Il ne s’agit pas seulement de convaincre les data stewards, les analystes et autres data scientists, mais de couvrir les usages de plus en plus variés des données en entreprise.
Les data catalogs autrefois réservés à des « power users » s’ouvrent de plus en plus aux métiers. Alation a présenté il y a peu la version 2020.3 de son data catalog. Cette nouvelle mouture intègre une nouvelle interface conçue pour simplifier l’accès aux données.
L’éditeur américain s’est fait connaître comme l’un des premiers, sinon l’inventeur selon Forrester Research, du data catalog propulsé au machine learning. L’éditeur n’entend pas proposer un catalogue, mais une « plateforme ». « Par plateforme, nous entendons une solution capable de servir différents cas d’usage », affirme Satyen Sangani, cofondateur et PDG d’Alation lors d’une conférence de presse.
« Un data catalog permet ce que peut faire une plateforme de gestion de métadonnées, c’est-à-dire stocker les métadonnées, les descriptions des données dans un seul système, et gérer cet ensemble. Mais cela vous permet également d’avoir plusieurs applications réunies au-dessus de ce système afin de gouverner vos données pour des raisons légales, de sécurité ainsi que pour améliorer des processus métiers ou toute autre activité de l’entreprise », ajoute-t-il.
Des data catalogs de plus en plus intelligents
Alation s’est d’abord concentré sur l’apport de fonctionnalités avancées à des professionnels de la donnée : des data stewards, des data scientists, des analystes, etc.
L’éditeur s’est notamment fait connaître pour son outil de requête type SQL dit intelligent nommée Compose. Celui-ci est doté d’un système d’autocomplétion et d’autocorrection. Alation utilise diverses techniques de machine learning, dont le NLP pour traduire automatiquement des noms techniques des objets dans le catalogue, en nom facilement reconnaissable par un humain.
L’éditeur a également développé un moteur de recherche en langage naturel. Alation a surtout développé ce qu’il appelle le « Behavioral Analysis Engine » une brique dopée au machine learning qui facilite la découverte et le classement des jeux de données les plus utilisés dans une entreprise, entre autres.
« Nous fournissons notre produit aux responsables de la gestion et du traitement des données, mais il y a des centaines de postes dans une entreprise qui devraient accéder à ces informations qui ne portent pas le terme “data” dans leur titre », déclare Aaron Kalb, Chief data and analytics officer et cofondateur d’Alation.
« Notre vision était d’apporter l’équivalent de Siri pour les entreprises », mais selon le responsable, ce n’était pas possible techniquement dans l’immédiat. Il fallait bâtir ce que l’éditeur a construit ces huit dernières années, c’est-à-dire des briques pensées pour collecter et rechercher les données efficacement.
Alation 2020.3 remet en forme l’interface utilisateur pour rendre utiles ces briques aux utilisateurs « Nous avons aussi un suivi des tendances, des recommandations et beaucoup de choses pour faciliter les utilisateurs métiers », promet Aaron Kalb. Les objets du catalogue sont accessibles à la manière d’un moteur de recherche grand public. L’interface est personnalisable et elle combine la recherche, l’indexation ainsi que des indications via des diagrammes.
Faciliter la recherche des données par les métiers, non plus pour eux
Cette approche n’est pas unique à Alation.
« La notion de data catalog n’est pas neuve », constate Guillaume Bodet, président de Zeenea, un éditeur français d’un data catalog. « En revanche, il y a clairement un renouvellement technologique qui s’opère, depuis deux-trois ans. Il existe tout un ensemble de solutions plus anciennes qui ont un défaut à notre sens : elles s’appuient sur du déclaratif », assure-t-il. De plus, « Ce sont des solutions qui sont longtemps restées cantonnées soit à l’IT dans le but de cartographier les données, soit aux responsables de la gouvernance réglementaire ou du risque ».
Pour pallier ces défauts, la startup lancée en 2017 offre un modèle similaire à Alation, en proposant une plateforme de gestion automatisée des métadonnées hébergée dans le cloud, qui adresse les données des systèmes sur site et dans le cloud, via un agent contenant les connecteurs vers les produits de traitement de données les plus utilisés en entreprise. Celle-ci dispose d’un métamodèle configurable, d’une brique de data lineage et contient des algorithmes pour maintenir à jour les informations sur les données et les enrichir (similarité d’actif, enrichissement de documentation automatique, suggestion sur le contexte, etc., promet la documentation de l’éditeur).
Par-dessus ce socle, Zeenea propose un data catalog accessible aux data stewards via Zeenea Studio pour gérer les objets via leurs métadonnées et Zeenea Explorer, disponible à partir de la fin du mois d’octobre 2020, un produit consacré à l’expérience de recherche, d’exploration, la recommandation sociale et doté d’un système de notation des objets.
Zeenea Explorer apporte une visualisation des jeux de données dans le catalogue voulu plus simple et adapté au profil de l’utilisateur. « Les résultats de recherche correspondent aux profils de l’utilisateur et nous proposons une hiérarchie des informations issue des métadonnées adaptée à son profil » vante Guillaume Bodet.
« De notre point de vue, l’expérience utilisateur est fondamentale pour assurer l’adoption des utilisateurs finaux. »
Il s’agit là encore de s’adresser à des populations moins familières aux data catalogs et les briques de recherche de données traditionnelles. « Notre position c’est de nous adresser aux populations chargées de créer de la valeur à partir des données, pour des projets de data science ou pour la commercialisation de données ou de l’innovation, par exemple », déclare Guillaume Bodet.
« Nous proposons un data catalog qui doit être le point central de la recherche d’informations. Hier, il y avait des data catalogs existants, déclaratifs, aujourd’hui, il y a des data catalogs intégrés, mais pas forcément ouverts à tout le SI de l’entreprise. Et il y a des pure-players du data catalog, comme Zeenea, qui offrent une brique pouvant se connecter à n’importe quel type de systèmes d’information afin d’aller collecter et centraliser l’information pour des utilisateurs finaux », résume Marina Tracco, directrice marketing chez Zeenea.
Aux côtés d’Alation (200 clients environ) et de Zeenea (une vingtaine de clients, dont Renault Digital), on peut également citer Datagalaxy (une quarantaine de clients), une startup française qui s’est d’abord spécialisée dans la gouvernance des données avec un data catalog lui aussi porté vers les métiers de la donnée. Quant à Informatica, elle a acquis Compact Solutions pour améliorer l’ingestion des métadonnées et ses fonctionnalités de gouvernance. D’autres mouvements de ce type se produisent sur le marché, par exemple le rachat de Waterline data par Hitachi Vantara.
Moteur de recherche accolé au data catalog ou moteur cognitif ?
Mais la recherche et l’exploration de données en entreprise prennent une ampleur inégalée. Les entreprises ayant adopté des catalogues ou ayant refactorisé les solutions existantes, pour traiter les problématiques liées au renforcement des législations concernant le stockage et le traitement des données, amplifient leurs cas d’usage. La nécessité de transformation induit une multiplication des projets de data science, et donc un besoin de trouver et localiser les bonnes données, tout du moins les bons data sets.
Dans cette approche tournée vers les utilisateurs, une autre tendance fait également parler d’elle : l’enterprise search. Ici, le moteur de recherche cognitif est décorrélé du data catalog : il s’en nourrit tout comme il peut se connecter aux autres ressources de l’entreprise habituellement adressées par le catalogue. Cette approche notamment mise en avant par IBM, Sinequa, Microsoft, Coveo ou encore Mindbreeze, semble davantage vouée à la recherche d’informations particulières dans un data set, plutôt que la recherche de l’objet en lui-même. Par exemple, une telle solution permet de retrouver dans un document un extrait qui répond à une question posée en langage naturel.
Si le data catalog reste une solution de référence pour gérer les jeux de données et les gouverner, il reste à savoir si et comment les entreprises marieront les deux paradigmes en direction de leurs métiers, ou si elles préféreront se contenter de l’un ou de l’autre.