kentoh - Fotolia
5 étapes pour améliorer la qualité des données
Le consultant David Loshin offre des conseils sur l’élaboration d’une stratégie de qualité des données qui peut aider à identifier les erreurs avant qu’elles ne causent de gros problèmes aux entreprises.
Les dirigeants les mieux informés reconnaissent l’importance d’établir et d’institutionnaliser les pratiques exemplaires pour améliorer l’utilisation des données. L’objectif premier est d’élever le niveau de qualité de l’information. Cependant, des problèmes peuvent apparaître si les entreprises entament des efforts sporadiques pour les nettoyer et les corriger. L’absence de processus exhaustifs réservés à la gestion de la « data quality » entraîne la multiplication des interventions, et de fait l’augmentation des coûts. Pire encore, cela entrave la distribution d’informations cohérentes auprès des utilisateurs métiers.
Il convient alors d’adopter une approche pragmatique afin d’aligner les pratiques disparates en termes de maintien de la qualité des données. Cette démarche permet de mettre en place un programme à l’échelle d’une société afin de relever ces deux défis. Au-delà du fait de se rapprocher de partenaires commerciaux, de développer des cas d’usage et d’élaborer une analyse du retour sur investissement, il faut lister les procédures essentielles à l’amélioration de cette « data quality ». Voici les cinq les plus pertinentes.
1. Documenter les exigences et définir des règles de mesure
Dans la plupart des cas, élever le niveau de qualité des données consiste à améliorer la pertinence des informations commerciales. Les organisations doivent commencer par relever les besoins. Cela demande de mobiliser les utilisateurs métiers, comprendre leurs objectifs commerciaux et leurs attentes concernant leurs usages de ces ressources. Une fois cette étape finalisée, ces informations combinées à des expériences partagées sur l’impact commercial des problèmes liés à la data quality peuvent être transformées en règles clés. Celles-ci mesurent la fraîcheur, l’exhaustivité et la pertinence des données, ainsi que la cohérence des formats de valeur dans les différents systèmes associés aux sources définies. Dans le cadre de ce processus, il est recommandé de mettre en œuvre un système central pour documenter les exigences et les dispositions connexes afin de faciliter le développement de mécanismes de validation des datas.
2. Évaluer les nouvelles données pour créer un référentiel adapté
Un processus reproductible d’évaluation statistique de ce niveau espéré permet de compléter l’ensemble des règles de mesure, en scrutant les systèmes sources à la recherche d’anomalies potentielles dans les nouvelles données. Les outils statistiques et de profilage permettent de balayer les valeurs, les colonnes et les relations dans et entre les data sets. Mener cette opération fréquemment facilite l’identification des valeurs aberrantes, les erreurs et renforce leur intégrité.
De plus, ces outils renseignent les administrateurs quant aux types de données, la structure des bases relationnelles, et sur les interactions entre les clés primaires et secondaires des bases. Les résultats peuvent être partagés avec les métiers pour aider à élaborer les règles de validation de la qualité des données en aval.
3. Mettre en œuvre des processus de gestion sémantique des métadonnées
Au fur et à mesure que le nombre et la variété des sources de données augmentent, il est nécessaire de limiter le risque que les utilisateurs finaux des différentes divisions d’une organisation interprètent mal ce surplus d’informations. L’on peut centraliser la gestion des métadonnées commercialement pertinentes et engager les utilisateurs et le chief data officer à collaborer. Il s’agit d’établir des standards afin de réduire le nombre de cas où de mauvaises interprétations entraînent des problèmes d’exploitation des données. Les métadonnées et les librairies associées peuvent être accessibles depuis le Data Catalog dans le but de comprendre les informations disponibles.
4. Vérifier la validité des données en continu
Ensuite, il est recommandé de développer des services automatisés pour valider les données enregistrées, services qui adopteront les règles de qualités préalablement définies. Un déploiement stratégique facilite le partage des règles et des mécanismes de validation à travers l’ensemble des applications et dans tous les flux informatiques, afin d’assurer une inspection continue et la mesure de la qualité des données. Les résultats peuvent être intégrés à divers systèmes de rapports tels que des notifications et des alertes directes envoyées aux responsables de la gestion des données pour traiter les anomalies les plus graves et les failles de données hautement prioritaires, ainsi que des tableaux de bord figurant des agrégats pour les collaborateurs non-initiés.
5. Endiguer les problèmes liés à la mauvaise qualité des données
En ce sens, il est pertinent de développer une plateforme pour enregistrer, suivre et gérer les incidents liés à la « data quality ». Il ne suffit pas de comparer les règles mises en place. En soi, cet effort n’entraîne pas d’amélioration à moins qu’il y ait des processus standards pour évaluer et éliminer la source des erreurs. Un système de gestion des événements peut automatiser les tâches de reporting, mettre en avant les urgences, alerter les responsables, assigner les tâches et suivre les efforts d’assainissement.
Bien menées, ces méthodes constituent l’épine dorsale d’un cadre proactif de gestion de la qualité des données, assorti de contrôles, de règles et de processus qui peuvent permettre à une organisation d’identifier et de corriger les erreurs avant qu’elles n’aient des conséquences commerciales négatives. En fin de compte, ces procédures permettront une meilleure exploitation des ressources au bénéfice des entreprises qui les déploient.
Pour approfondir sur Outils décisionnels et analytiques
-
LLM Guard Services : Dataiku pose des garde-fous pour les projets d’IA générative
-
Collibra applique ses recettes de gouvernance des données à l’IA
-
Les ETI françaises veulent exploiter leurs données, mais leur maturité reste faible (étude)
-
Un data stewardship distribué au service de la gouvernance des données