Qualité de la donnée : adopter une démarche proactive pour l’améliorer
Au lieu d'attendre que la qualité des données devienne un problème, envisagez une approche proactive. Voici quelques pratiques à prendre en compte afin de l'améliorer.
Mettre en place et maintenir la qualité des données sont des défis constants pour la DSI. La croissance débridée de la production de données rend ces tâches de plus en plus difficile. En outre, la dépendance des entreprises à l’égard des datas pour générer de nouveaux indicateurs de performance efficaces augmente rapidement.
Dans ce contexte, une approche réactive revient à jouer le rôle de pompier : les problèmes de qualité des données provoquent une réaction après qu’ils se soient produits. Les pompiers de la donnée gèrent les crises les unes après les autres. Sans un processus proactif de vérification des informations, les erreurs s’accumulent. L’objectif d’un programme d’amélioration de la qualité des données est de les identifier avant qu’elles ne se produisent.
Que l’on gère un département IT de deux ou de 20 000 personnes, la donnée est une ressource primordiale. La seule différence devrait être la taille de l’équipe en charge de l’inspection. La plupart des éléments dans les bases de données ne sont pas immuables. Ils sont répandus à travers de multiples entrepôts. Une valeur incorrecte, c’est comme un virus : une fois créée, elle se répand dans les rapports, les tableaux de bord et autres data warehouses d’une entreprise.
Voici quelques recommandations pour aider les entreprises à mettre en place un programme proactif d’amélioration de la qualité des données. Ce programme n’est, en aucun cas, exhaustif, mais les aidera à réfléchir au processus de garantie de validation des données à travers une organisation.
1. Créer et encourager un état d'esprit favorable à la qualité des données
Comme toutes les initiatives organisationnelles, il faut d’abord créer un état d’esprit capable de soutenir ce processus d’amélioration. Avant tout, il faut convaincre la direction. Pour cela, il convient d’identifier les membres des équipes responsables de la qualité des données et informer à la fois les équipes IT et métiers des avantages des nouvelles procédures de vérification. Ce processus doit faire partie intégrante des méthodologies du tissu organisationnel.
2. Les bonnes personnes avec les bonnes compétences
Les spécialistes de la donnée peuvent être difficiles à recruter et sont généralement très chers. Cela ne vous empêche pas de former vos propres experts. Il faut alors identifier les membres de l’entreprise qui expriment un fort intérêt pour la pratique et leur donner le temps et les moyens d’apprendre la data science.
Il convient tout de même de privilégier des profils techniques ou de statisticiens qui peuvent être directement confrontés au manque de fiabilité de certains jeux de données. Évidemment, un programme évolue en fonction des contraintes budgétaires et des ressources humaines dont une entreprise dispose.
Pas d’argent, pas d’outils : pas de problème
Vous n'avez pas assez de fonds pour investir dans des produits de gestion des données de référence (MDM) ou des outils de data quality ? C'est certainement un défi, mais ce n'est pas une excuse. Nous avons examiné les activités de plusieurs startups en la matière. Les programmes d’amélioration de la qualité des données dans ces PME sont généralement des patchworks de procédures, de documents, de bibliothèques de processus et de produits open source. Il n’y a donc pas besoin d’avoir un outil dédié, mais d’une volonté forte au niveau organisationnel. Il existe également plusieurs outils MDM et de vérifications des informations en open source proposés par Talend, Pimcore ou encore OS DQ.
Un processus qui commence dès la création et l’acquisition de données
Afin de renforcer la fiabilité des data sets, vous devez appliquer les meilleures pratiques lors de la création ou de l’acquisition des données en provenance de sources externes. Rencontrez les consommateurs d’information afin de déterminer comment ils les utilisent. Identifiez les politiques commerciales qui régissent ces jeux de données. Vous pourrez ensuite élaborer un standard et des règles de définition des datas pour faire respecter la conformité.
La plupart des bases de données fournissent un ensemble de contraintes efficaces pour améliorer cet aspect. Pour les applications qui n’utilisent pas de SGBD, étudiez d’autres mécanismes pour stocker un code commun des règles de qualités de données ainsi que les meilleures pratiques.
Nous recommandons vivement aux entreprises de toutes tailles d’évaluer les suites MDM. L’environnement d’une telle plateforme et les procédures associées deviendront le fondement de votre programme de qualité des données. Un MDM vous aidera à établir et à appliquer plus rapidement une source unique de vérité à l’échelle de l’entreprise.
Maintenir la qualité des données
Évaluer régulièrement le niveau de qualité des données apparaît comme une composante importante de ce type de programme.
La procédure reproductible devrait être la suivante :
- Identifier les données et les experts en la matière.
- Établir des priorités quant à l’importance des informations pour l’organisation.
- Évaluer les actifs les plus importants.
- Corriger les valeurs inexactes.
Lorsque vous identifiez les valeurs incorrectes, votre objectif doit être de déterminer la gravité, l’étendue, l’impact et la cause profonde du problème. Ensuite, il s’agit de prendre les actions nécessaires pour corriger le tir.
Il existe de nombreux produits de qualité des données pour vous aider dans votre analyse, notamment les offres d'Informatica, IBM, Oracle, SAP, Information Builders et Talend. Le site Peer Insights de Gartner peut vous aider à comparer toutes les offres concurrentes.
Il n'est jamais trop tard pour mettre en place un programme proactif de renforcement de la qualité des données. Votre organisation ne peut qu’en bénéficier et cela vous évitera les situations critiques.