La traçabilité des données : un turbo pour la gouvernance
La gouvernance des données est essentielle pour les entreprises qui souhaitent suivre le cycle de vie des données. Cet article donne quelques conseils sur les points à considérer si on souhaite investir dans la traçabilité des données.
La raison première de la gouvernance des données est le respect et la conformité de la politique en matière de données dans une entreprise. Ces politiques peuvent couvrir de nombreux objectifs, et reposer sur des directives sur la protection et la validation des données. Les responsables de la gestion et de la gouvernance des données doivent pour cela solliciter les utilisateurs métier. Il s’agit de formuler clairement les exigences en matière de qualité des données, de préciser les paramètres et de mesurer la conformité aux politiques de données.
Cependant, le défi est de combler le fossé qui existe entre la définition même de ces politiques de gouvernance des données et leur mise en œuvre. Les politiques visent à assurer le contrôle de la qualité des données dans l'ensemble des flux de production. Toutefois les responsables qui se voient souvent confier la responsabilité de la gestion de la qualité des données restent sans formation ou sans outils appropriés.
C'est là qu'interviennent les outils de traçabilité de la donnée (data lineage). Cette fonction documente le parcours des données dans l'entreprise et aide à simplifier deux procédures clés de la gouvernance des données : l'analyse des causes et l'analyse d'impact.
Traçabilité et gouvernance des données
Si l’on ne dispose pas d’un moyen pour identifier où sont les erreurs, les responsables des données (que l’on appelle les data steward) auront du mal à identifier et à corriger les problèmes en matière de qualité des données. Lorsque ces erreurs continuent de se propager, l'entreprise risque d’être confrontée à des rapports et des analyses incohérents – et donc de mauvaises décisions.
Les outils de data lineage (suivi des données) peuvent simplifier le processus d'analyse de causes fondamentales en cartographiant les différents traitements par lesquels les données sont passées. La qualité des données peut être examinée à chaque point du flux de traitement, ce qui permet à l’IT de trouver l’origine des erreurs.
En remontant à cette erreur première, le data steward peut insérer des contrôles à chaque étape pour vérifier si les données étaient conformes aux attentes ou si l'erreur était déjà présente. L'étape qui indique que les données étaient conformes à l'entrée, mais défectueuses à la sortie, est celle où l'erreur a été introduite. L'administrateur des données peut donc se concentrer sur l'élimination de la cause fondamentale au lieu d'essayer simplement de corriger les mauvaises données.
Tracer l’historique des données peut également aider les data steward à identifier des changements inattendus de format et de structure des données - les environnements actuels sont en effet beaucoup plus dynamiques que dans le passé. Lorsque les sources de données changent, il peut y avoir des conséquences imprévues.
A partir de son origine, le gestionnaire des données peut également retracer les dépendances et déterminer les étapes de traitement impactées par le changement.
Ce qu'il faut rechercher dans les outils de traçabilité des données
La collecte manuelle des métadonnées et la documentation du data lineage nécessitent un investissement important en ressources. Toutefois, elles restent sujettes à l'erreur, surtout dans les entreprises qui s'appuient sur des rapports et des analyses pour la prise de décision.
Il convient alors de rechercher des produits qui permettent de :
- Accéder de manière native à un large éventail de sources de données,
- Regrouper les métadonnées dans un référentiel centralisé,
- Fournir des présentations simplifiées des métadonnées à différents utilisateurs et encourager la collaboration pour aider à la validation des métadonnées,
- Documenter la façon dont les données circulent dans les flux de traitement,
- Fournir une présentation visuelle de la traçabilité des données,
- Fournir des API aux développeurs pour interroger les informations de traçabilité,
- Créer un index inversé pour faire correspondre les éléments de données à leurs usages,
- Fournir des modules de recherche pour retracer rapidement le flux de données depuis son point d'origine jusqu'à toutes ses cibles en aval.
- Parcourir les flux de données.