Data Catalog
Un catalogue de données (data catalog) est un outil de gestion des métadonnées. Son rôle est d'aider les organisations à organiser, retrouver et gérer leurs sources de données - tableurs Excel, fichiers, bases, tables, etc. - générées et consommées par tous ses ERP, les SIRH, les outils de comptabilité, le CRM. Un catalogue de données peut également recenser des sources externes comme les réseaux sociaux.
Les fonctions et objectifs d'un data catalog
Les data catalogs centralisent les métadonnées en un seul endroit (fonction d'index). Ils fournissent une vue complète de chaque élément de données. Ils contiennent des informations sur leurs emplacements et leurs profils. Ils proposent également des statistiques et des résumés sur ces sources, auxquels peuvent s'ajouter des commentaires. Ces informations permettent de classer les données (fonction de tri et de classification).
Lorsqu'il est systématisé, le catalogue de données peut rendre les sources de données plus simples à trouver (fonction de découverte) par les utilisateurs. Il aide également à en contrôler la qualité (fonction de scoring) et donc les organisations à prendre des décisions plus éclairées.
Un catalogue de données n'a pas vocation à être statique. Il suit au contraire l'évolution des données (corrections, ajouts, fusions de jeux de données, etc.) et leur migration physique d'un lieu de stockage à un autre (fonction de « traçabilité » et suivi, ou Data Lineage).
Toutes ces fonctions (index, tri et classification, scoring de qualité, découverte, traçabilité) sont en grande partie automatisées par l'outil de catalogue de données.
Enfin, les catalogues de données permettent de réaliser des études d'impact lors de projets de migration (par exemple : quelle influence aura le passage d'un CRM à un autre CRM sur le listing clients ?) ou de montées de version.
Intérêt dans la gouvernance des données
La multiplication des outils cloud (SaaS), des données (Big Data), l'avènement de la BI en libre-service et l'arrivée de nouvelles réglementations (comme le RGPD) ont stimulé la demande de solutions de catalogues de données.
Les solutions de catalogue de données sont au coeur de la gouvernance des données et un élément indispensable de l'analytique en libre-service dans les grands groupes.
En minimisant le nombre de silos, en réduisant le temps d'analyse et en fournissant une source unique de vérité pour des analyses plus précises, les data catalogs aident les entreprises à tirer un maximum de valeur de leurs actifs informationnels.
Les données des catalogues sont classées en fonction de termes spécifiques aux métiers (glossaire) et du contexte de leur utilisation dans les applications analytiques (découverte sémantique). Les utilisateurs du catalogue de données comprennent en effet à la fois les opérationnels et les analystes (Data Analysts).
Principales fonctionnalités d'un catalogue de données
Les catalogues fournissent des fonctions d'automatisation pour sa construction initiale (indexation et génération de taxonomie) et pour sa mise à jour.
De plus, la sécurité, qu'elle soit appliquée par le catalogue ou par les systèmes sous-jacents, est cruciale pour protéger les données des entreprises. Ceci implique que les catalogues proposent des fonctions de sécurité et de contrôle d'accès basé sur les rôles, des informations sur les personnes qui ont accédé aux données et des capacités d'audit et de chiffrement.
Les catalogues de données peuvent également être utilisés pour créer des portails qui permettent aux utilisateurs de trouver facilement les données qui ont été validées par des responsables de la donnée (les Data Stewards).