Gouvernance et data lake : quelles sont les difficultés rencontrées par les entreprises
La mise en place d’une gouvernance de données à un data lake reste compliquée. Cette capacité à déstructurer complique la mise en place de politiques et de gestion précises des données. Pourtant, la gouvernance reste indispensable. Cet article passe au crible les points problématiques.
La gouvernance des données permet d’appliquer des politiques, des normes, des pratiques et des processus pour gérer les données. En cela, elle constitue la clé d’une utilisation efficace des données en entreprise et une garantie de la qualité des données utilisées. Si une entreprise souhaite disposer de bonnes données dans son lac de données (data lake) et obtenir ainsi des résultats qualitatifs, elle doit s'engager dans une gouvernance adaptée.
Lorsqu’on aborde la question de la gestion et de la gouvernance des données, les lacs de données apparaissent comme de véritables bêtes noires. Il existe plusieurs explications à cela. Les principaux problèmes portent sur :
- Les problèmes d’identification et de maintien des bonnes sources de données (système d'enregistrement, propriétaires métier des données, données manifestement redondantes dans le lac, etc.)
- Les problèmes de gestion des métadonnées (quelle est la bonne définition des données dans le lac de données ; conflits entre les définitions de données valides causés par des problèmes de propriété; normes de données appliquées ou non appliquées aux données avant ou pendant leur stockage, causant des problèmes d'analyse, etc.)
- Le manque de coordination entre un programme de gouvernance des data lakes et les efforts en matière de qualité des données, peut entraîner l’intégration de données de mauvaise qualité dans le lac de données. Cela peut certes conduire à des résultats inexacts, mais entraîne également une perte de confiance et une méfiance générale à l'égard des données sur l’ensemble de l’entreprise.
- Le manque de coordination entre la gouvernance et la sécurité des données. Les normes et les politiques relatives aux données ne sont pas appliquées correctement. Cela cause des problèmes d'accès aux données sensibles ou aux données protégées par les règlements.
- Conflit entre départements qui utilisent le même lac de données. Ces départements métier peuvent en effet avoir des règles administratives différentes pour des données identiques. Des politiques ou des normes différentes sont alors appliquées aux données stockées dans le data lake. Cela peut rendre difficile la consolidation des données pour les analyses.
Pour conclure, sans gouvernance appliquée à leur data lake, les entreprises risquent de ne disposer que d’un « data swamp », véritable bourbier de données impraticables.