Big Data Paris : le Big Data, un accélérateur pour la qualité des données ?

La Big Data, en multipliant les données hétérogènes, risque d’exacerber un problème déjà présent dans la gestion des données : celui de la qualité des données. Un constat réalisé à l'occasion de Big Data Paris.

par

Cyrille Chausson, Rédacteur en Chef

Publié le: 21 mars 2012

Dans le Big Data, si l’on sait gérer la volumétrie des données, il reste encore du chemin en matière de qualité des données. C’est un des constats que l’on pouvait réaliser lors de la première édition de Big Data Paris, qui se déroule le 20 et 21 mars dans la Cité Universitaire International de Paris. Alors que le Big Data change la donne en matière de gestion des données en multipliant la capture de données, les sources ainsi que les formats, la qualité des données reste encore la bête noire. Quitte alors à devenir un point bloquant du phénomène.

Zouheir Guedri, directeur consulting, PricewaterhouseCoopers, pose le problème :
«Le Big Data modifie les schémas de gouvernance et de gestion des données, car on ne maîtrise ni la fréquence ni le volume ni le format ni la structure des données. Difficile alors d’en maîtriser la qualité. Avec le Big Data , on ne va pas essayer de faire le tri, on va tout prendre et analyser. La question de la qualité des données se posera autrement, sur le terrain. Où est-ce que je pose mes capteurs et quels sont les flux que je souhaite récupérer et analyser en temps réel pour avoir ses intuitions et ses déductions.» On comprend bien que le phénomène de Big Data vient rebattre les cartes d’un segment. Même si, finalement, la qualité des données apparaissait déjà comme balbutiante dans la chaîne du Data Management. Pour Zouheir Guedri, qui cite les conclusions d’une étude récente de PwC, la qualité des données, si les deux crises ont permis de sensibiliser davantage le top management à la problématique en proposant des indicateurs de performance d’activités, notamment, était généralement très peu prise en compte. Même si les hauts responsables y voyaient un avantage pour leur activité. «Un décalage entre intention et exécution.» A l’exception des banques et des telcos poussés vers la gouvernance et la qualité des données par le régulateur et des normes, comme Bâle II par exemple.

Selon lui, l’un des principaux points bloquants est notamment le manque d’indicateurs de qualité. Déjà vrai dans pour la gestion traditionnelle des données, le Big Data jouera ici un rôle de catalyseur : «les entreprises pensent que les données échangées par des partenaires tiers va croitre, mais elles ne disposent pas d’indicateurs vérifiant que les données sont de qualité. Elles estiment de façon empirique qu’elles sont de qualité. Avec la multiplication de ces échanges, il faudra le démontrer», rapporte-t-il. Tout comme la qualité des données tierce. «Les entreprises sont convaincues que les données de leurs partenaires sont de mauvaises qualités. Il y aura forcément un blocage si on ne parvient pas à développer des indicateurs en interne, ou avec une tierce partie. Cela est déjà important dans un contexte traditionnel. Dans un contexte Big Data, cela sera d’autant plus bloquant», avance-t-il. Le contexte est ainsi posé.

Le soucis Hadoop

Chez les fournisseurs de technologie, le constat reste identique, mais plus nuancé. Yves de Montcheuil, vice président du marketing de Talend, spécialiste de l’ETL Open Source, explique ainsi que «la qualité des données n’est souvent pas prise en compte dans un contexte Big Data, ou alors après coup. Le problème est que dans le Big Data est comme avec l’IT traditionnel mais avec des problèmes qui se démultiplient». D’un point vue technologique, rien n’est vraiment fait pour gérer cette problématique dans un contexte Big Data. Techniquement, il explique : « on a plusieurs options : filtrer les données en amont pour n’importer dans sa structure décisionnelle que les bonnes données, testées, qualifiées et enrichies [approche traditionnelle, NDLR]. Ou bien on stocke toutes formes de données et il faut appliquer un nettoyage en aval, au sein de la structure de stockage Big Data.» Avec une nuance toutefois : le Big Data est fortement lié à des données générées par des machines dont la qualité est «assez consistante. Il est rare qu’un enregistrement soit incomplet». Il cite alors quelques problèmes liés à l’’identification et à la réconciliation des données. Pour lui, le plus gros point bloquant est les données stockées dans Hadoop. Comment les enrichir et de les réconcilier ? «Aujourd’hui, il existe très peu de technologies de qualité de données qui interviennent directement au sein d’Hadoop. On se retrouve dans un cas où on est obligé d’extraire les données d’Hadoop et de les traiter dans des moteurs de qualité de données traditionnels, comme ceux d’Informatica [l'éditeur propose également des outils pour aborder le problème Big Data, NDLR ] ou de Trillium, pour les ré-injecter dans Hadoop. Ca peut fonctionner si au final on doit stocker les données dans un data warehouse. Mais pour de l’analytique Big Data, où les traitement sont effectués dans Hadoop, cela nécessite d’en sortir les données pour les traiter et les y ré-insérer, ce n’est pas très productif.» Un vraie faiblesse donc.

La qualité des données, la cause d’échecs dans le décisionnel

D’autant que les acteurs du décisionnel sont derrière, ceux qui dépendent étroitement des données «livrées» et de leur fiabilité. « On est loin d’avoir solutionné le problème de la qualité des données. C’est encore un marché important pour les éditeurs de solutions de gestion de données, indique Idris Bouchehait, responsable Marketing chez MicroStrategy. MicroStrategy n’a pas vocation à intervenir en direct sur la qualité des données mais nous sommes fortement impliqués dans le sens où notre offre apparait en premier pour l’utilisateur, et donc est en première ligne s’il existe un problème dans la qualité des données». Pour résoudre cette problématique MicroStrategy a développé un outil qui remonte des anomalies mais ne les corrige pas. Pour les corrections, «nous travaillons avec Informatica par exemple ou Teradata dans les bases de données», ajoute-t-il. La qualité des données est un point critique pour lui, car au final «beaucoup de projets décisionnels ont périclité à cause de problèmes de la qualité des données car les projets, du coup, ne peuvent pas donner entière satisfaction».

Il faut donc voir le problème différemment. Si dans le Big Data, «on ne pourra pas contrôler la qualité d’une commentaire ou d’un «like» sur Facebook», commente Zouheir Guedri, des services commencent à émerger, notamment dans le data mining et dans l’analyse sémantique. Des technologies qui permettent «d’éliminer des déchets et ce qui vient perturber le signal qu’on essaie de capter».
D’un point de vue marché, la qualité de la donnée risque de se retrouver propulsée au coeur d’un des éléments clé du Big Data et engendrer des mouvements sur le marché, comme des rachats de pure-players de la qualité par des gros du logiciel. Mais cela ne constituera alors qu’une première étape du chemin à parcourir. «Il manquera alors l’organisation qui doit être mise en place pour gérer la qualité des données. Il est certain que les outils ne permettront pas de gérer l’ensemble. Le nettoyage sera certes effectué, mais sans organisation cela risque d’être voué à l’échec», affirme Zouheir Guedri. Selon PwC, à horizon trois ans, 30% des grandes entreprises vont mettre en place des politiques et des cellules de gouvernance de donnée.

Big Data Paris : le Big Data, un accélérateur pour la qualité des données ?

La Big Data, en multipliant les données hétérogènes, risque d’exacerber un problème déjà présent dans la gestion des données : celui de la qualité des données. Un constat réalisé à l'occasion de Big Data Paris.

Pour approfondir sur Outils décisionnels et analytiques

7 étapes pour créer son data lake

Hadoop en self-service : la prochaine étape du Big Data

Syncsort et Trillium veulent bannir les « Data Swamps »

Le Big Data dans un grand groupe : des chantiers gigantesques et interminables