Les étapes pour construire un catalogue de données
Un catalogue de données est le garant des métadonnées et des données de l’entreprise. Mais sa conception demande un peu de méthode. Cet article vous accompagne dans sa mise en œuvre.
Si agréger les données est une première étape, les rendre accessibles à la bonne population d’utilisateurs en est une autre, tout aussi importante. C’est là qu’entre en jeu le catalogue de données. Sa création devient aujourd’hui un enjeu majeur pour parvenir à utiliser la donnée comme un vrai actif de l’entreprise. Mais attention, elle est aussi un processus collaboratif. Les entreprises ne doivent pas entreprendre un tel projet sans la contribution de leurs partenaires commerciaux, ni les départements métiers.
Un catalogue de données est une application de référence qui permet aux utilisateurs métiers et IT d’explorer les sources de données, de comprendre leur contenu via des métadonnées, de connecter ces données à la source et d’y accéder en toute autonomie – en libre-service. Un catalogue de données explore donc les bases de données et les systèmes de BI. Il fournit également un point de référence unique pour la gestion des métadonnées de l’entreprise, plus rapide et plus efficace que les anciens systèmes.
Les principales étapes de la création d’un catalogue de données sont les suivantes:
- Concevoir un modèle de données qui servira de base à l’architecture du catalogue. Un catalogue de données efficace doit correspondre à l’usage des données par les métiers, et ne pas être une simple implémentation technique. Un modèle doit (SAM – Subject Area Model) définir chaque sujet et concepts associés. Il montre aux métiers l'emplacement de leurs données sans référence aux applications, aux fichiers ou aux bases de données. Le catalogue de données doit être construit sur la base de ce SAM.
- S’appuyer sur les Data Stewards et les responsables IT pour découvrir et accéder aux métadonnées de toutes les bases de données et tous les fichiers. Les catalogues de données utilisent des métadonnées pour identifier les tables, les fichiers et les bases de données. Pour cela, il effectue une recherche dans les bases de données de la société et charge les métadonnées (et non les données réelles) dans son référentiel. Avant toute création, les sources des métadonnées doivent être identifiées puis enregistrées. Il s'agit d'une étape majeure qui nécessite un solide programme de gouvernance. Les Data Stewards sont ici importants pour avoir un aperçu des sources de données à utiliser.
- Construire un dictionnaire de métadonnées (pas un glossaire métier). Ce dictionnaire contient la description et le mapping de toutes les tables ou fichiers et de toutes leurs métadonnées. Ce dictionnaire devient la base du catalogue de données. Là encore, les Data Stewards métiers sont essentiels car ils identifient les métadonnées à utiliser dans le catalogue - par source, concept et domaine.
- Profiler les données pour proposer des statistiques aux utilisateurs. Ces profils sont des résumés informatifs qui expliquent et aident à comprendre les métadonnées. Par exemple, le profil d'une base de données comprend souvent le nombre de tables, de fichiers et le nombre de lignes.
- Identifier les relations entre les sources. Il s’agit là de découvrir les données associées sur plusieurs bases de données. Un analyste peut par exemple avoir besoin d'informations consolidées sur le client. Grâce au catalogue de données, on peut noter que cinq fichiers sur cinq systèmes différents contiennent des données client.
- Développer une traçabilité des données. Les outils d’ETL (Extract, Transfer, Load) sont utilisés pour extraire les métadonnées des bases de données sources, les transformer et les nettoyer, puis les charger dans une base de données cible. Cela peut être utile pour rechercher les éventuelles erreurs d’une l'analyse.
- Structurer le catalogue pour l’humain (en fonction du SAM). La plupart des fichiers et bases de données sont conçus pour être utilisés par des outils technologiques. Les catalogues de données doivent être conçus tant pour ceux qui consomment les données que pour ceux qui fabriquent les technologies. Autre élément clé : un catalogue de données doit rester consultable depuis un ordinateur, une tablette et des applications mobiles.