Le catalogue de données : à la recherche de l’ordre perdu
En proposant de cartographier et de classer les données d’un SI, les catalogues de données redonnent la parole au patrimoine informationnel de l’entreprise et favorisent l’usage des données auprès des métiers.
Depuis plusieurs mois, le monde du data-driven en parle, les entreprises qui ont fait le choix de piloter leurs activités en analysant leurs données y voient une pilule miracle : les catalogues de données.
Ce marché, inclus plus spécifiquement dans celui de la gestion de données, correspond à un segment naissant pour le cabinet d’analyste Gartner. Les briques technologiques et les acteurs se mettent en place au fur et à mesure que les entreprises considèrent cet outillage comme une clé de leur stratégie liée à la donnée. Mais sans ambages, Gartner les considère déjà comme une technologie d’avenir, un segment dont la croissance sera fulgurante.
Il faut dire que le catalogue de données a quelques cartes à jouer en matière de gouvernance des données, la pierre angulaire de toutes stratégies dite « data-driven ». Son principe consiste schématiquement à exploiter les métadonnées pour redonner une classification concrète de l’information et de la rendre ainsi « consommable » par les métiers. Là est l’ambition ; ce que Zeenea, l’un des pure-players français de ce segment considère comme étant de la « démocratisation des données » au sens large.
Le catalogue de données est en effet là pour livrer un instantané des données, de localiser leur emplacement, d’identifier les jeux les plus exploitables pour une population de métiers donnée et de montrer leur pédigrée en détaillant leur traçabilité (data lineage).
L’étape d’après consiste à les trier, les étiqueter, les classer. Là le Machine Learning apparait comme un outil essentiel pour nombre d’acteurs qui automatisent « intelligemment » cette étape. Des métadonnées et du contenu même des données sont extraites des informations qui livrent une identité à une information, avec un scoring (cela est répandu chez nombre d’éditeurs) qui évalue la pertinence de cette reconnaissance.
De là est également évalué le parcours de cette donnée – sa traçabilité. L’intérêt est ensuite d’indexer ces métadonnées afin d’en faciliter la recherche et la consultation par les métiers ou les analystes. « L’intérêt consiste donc à aller scanner au plus large le SI de l’entreprise », explique ainsi Edouard Guérin, consultant avant-vente Big Data et gouvernance des données chez Informatica, et d’y inclure chaque parcelle de l’IT afin de cartographier l’ensemble des sources.
Alation, Informatica, Zeenea, Waterline Data proposent tous une interface proche de celle de Google pour justement faciliter l’accès à ces informations par des non techniciens IT.
« Cela pose un canal d’échange commun entre l’IT et les métiers et permet d’avoir une vision précise de ce qui produit de la valeur pour l’entreprise » - Stéphane Jotic, CEO Zeenea (pure-player français du catalogue de données).
Cette interface à la Google constitue en fait une porte d’entrée très large pour les métiers. Mais il n’agit que comme un premier filtre pour un service encore plus ambitieux : le portail qui permet de l’utiliser en libre-service par certaines populations d’utilisateurs. L’objectif est de « proposer un service aux métiers afin de les rendre autonomes et d’agir avec des fonctions préparées par ces mêmes métiers. Sans catalogue qui a précédemment identifié les données, difficile de mettre en place un tel service », ajoute encore Edouard Guérin.
Sur ce point, le marché se divise encore, certains éditeurs ayant intégré cette fonction dans leur offre. Chez d’autres il s’agit d’un second produit.
Aussi automatisé soit-il, le catalogue de données passe ensuite la main aux experts « humains ». Ils ont la possibilité, de façon collaborative, de valider les informations ou de suggérer des corrections. Celles-ci sont en revanche effectuées dans un outil tiers (par exemple Trifacta), la qualité des données n’étant pas une fonction du catalogue de données.
Du data lake à la recontextualisation
Si l’on comprend ici l’intérêt de la technologie, la question à se poser est pourquoi ces catalogues ont le vent en poupe aujourd’hui. Comme tout catalogue, celui de la donnée a pour ambition d’organiser le patrimoine informationnel de l’entreprise en classant l’ensemble de ses données. Trier méthodiquement en somme, alors que l’ère du Big Data, il y a 10 ans avait justement poussé les entreprises à placer leurs données dans de vastes systèmes, toutes au même niveau, quel que soit leur format, sans hiérarchisation, sans tri. Un énième système – un data lake Hadoop par exemple – était donc venu s’ajouter à ceux en place, accentuant un peu plus la dilution de l’information et la répartition massive des données, en silo.
« Plus de 72 % des entreprises n’ont pas une culture de la donnée, même si elles ont investi massivement dans le Big Data et l’AI », assure Satyen Sangani, le Pdg d’Alation, éditeur américain d’un catalogue de données, citant une étude du cabinet New Vantage Partners.
Sans cette culture infusée à l’ensemble de l’entreprise, l’édifice se fissure. « Les investissements ont certes été massifs, mais les résultats limités », ajoute encore le spécialiste. « D’où la nécessité de re-classer les données », pour les porter au plus près des usages métiers. Il s’agit là de « révéler les données telles qu’elles existent », illustre-t-il.
Ces investissements ont été par exemple consentis dans un outillage stratégique, comme dans des solutions de Business Intelligence (BI). Mais ils n’ont pas atteint leur plein potentiel, freinés justement par ce manque de culture. Et ces entreprises-là sont les premières aux abois. « Nous ciblons ainsi les entreprises qui ont un pied dans les outils de BI », reconnait encore Satyen Sangani. Et le cercle est vertueux, car en révélant ces données, « le catalogue contribue à apporter cette culture de la donnée ».
Cet argument déceptif est également repris par Edouard Guérin (Informatica). « Beaucoup de promesses n’ont pas été tenues par le passé (il y a 10 ans environ, quand le Big Data a pris forme, NDLR). Le data lineage a par exemple été placé dans un seul contexte décisionnel, alors que le catalogue de données ne doit pas être contraint à cet environnement, mais doit proposer une vision globale. » Seulement voilà : « A l’époque, la puissance de calcul ne permettait pas d’avoir cette vision globale », lance-t-il.
Pour Zeenea, la montée en puissance des catalogues de données est aussi venue avec la prise en compte des données non structurées – et donc des environnements Hadoop. De vastes lacs (parfois marécages diront certains) où toutes les données, quels que soient leurs formats, sont stockées au même niveau sans classification.
« Le catalogue de données crée ainsi un canal d’échange commun entre l’IT et les métiers », résume encore un responsable de la société et permet ainsi d’avoir une vision précise de ce qui produit de la valeur (dans des environnements de plus en plus pilotés par la donnée, NDLR) ».
Gouvernance des données et RGPD
Evidemment, le catalogue de données trouve naturellement sa place dans les politiques de gouvernance de données. « L’intérêt [de celui-ci] tient au fait que la donnée soit devenue un élément clé de l’entreprise, explique Edouard Guérin d’Informatica.
« La valeur des données ne peut s’exprimer qu’à condition de bien les connaître et de savoir où elles se trouvent. » Les cartographier ainsi que leurs sources, mais aussi suivre leur traçabilité et analyser leurs impacts à l’échelle du SI, sont les autres piliers de ce catalogue. On peut par exemple comprendre l’impact qu’a une montée de version d’un logiciel sur une autre application ou un autre jeu de données, illustre-t-il.
Mais l’autre moteur est certainement la réglementation. En proposant des capacités de traçabilité, le catalogue de données devient un allié clé pour toutes formes d’audits.
« Les contraintes réglementaires, comme le RGPD et la norme IFRS 17 pour le monde de l’assurance représentent aujourd’hui un moteur pour le catalogue de données », commente le spécialiste. Avec des SI distribués entre plusieurs pays, les données sont en plusieurs langues et répondent à des normes locales. « Le catalogue des données scanne tout le SI, interne et externe et crée une radiographie complète des systèmes, du mainframe aux objets connectés. Dans un contexte RGPD, il identifie les données à caractère personnel d’une part et aide à constituer un registre des traitements. »