Data Lineage (traçabilité des données)
La traçabilité des données, ou lignage des données, désigne l'historique des données notamment les chemins empruntés tout au long de leur existence dans une entreprise. Elle fait partie intégrante du respect des réglementations légales et internes de la gouvernance des données.
L'historique des données s'obtient par la documentation de la traçabilité des données et par les logiciels. Sans moyen de repérer où surviennent les erreurs de données dans l'environnement, les gestionnaires de données ont du mal à identifier et à résoudre les problèmes liés à la qualité des données.
Des outils efficaces, capables de suivre et de documenter le parcours des données au sein de l'organisation, facilitent la gouvernance de données. Cette documentation simplifie deux des grandes préoccupations de la gouvernance des données quant aux conséquences des modifications apportées aux données : l'analyse de la cause première et l'analyse de l'impact sur l'entreprise. Pour bien comprendre les causes premières et les effets des problèmes touchant les données, il convient de savoir tout ce qui est arrivé aux données depuis leur naissance.
Dans le développement logiciel, la traçabilité des données participe à concilier les bonnes pratiques du développement agile, les règlementations de gouvernance des données et les règles internes de l'entreprise.
Les outils et procédures de traçabilité des données aident à localiser l'introduction des failles de données, ce qui en facilite le diagnostic et la correction.
Parfois difficile et rarement prioritaire, la mise en oeuvre de la traçabilité des données permet pourtant des corrections précoces qui minimisent la propagation des erreurs : l'implémentation en amont des outils de traçabilité des données s'avère souvent profitable.