Sergey Nivens - stock.adobe.com
Pourquoi toutes les décisions data-driven ne sont-elles pas fiables ?
Les entreprises expriment souvent le souhait de devenir « data-driven ». Mais si ces données étaient inexactes ? La démocratisation des données répondrait en partie à ce problème.
Au début de cette année, McKinsey a publié un rapport intitulé The data-driven enterprise of 2025. Celui-ci décrit le parcours des entreprises pour atteindre leur idéal : être capables de prendre des décisions intelligentes et éclairées, fondées sur des faits. Si l’idée est excellente et sans doute réalisable pour certaines entreprises, la réalité pourrait s’avérer très différente. Faute de s’attaquer aux problèmes de qualité des données, point d’approche fondée sur les données (ou data-driven). Autrement dit, les organisations en reviendraient aux vieilles tactiques de prises de décision.
Cette situation rappelle les propos d’Anand Sawal, cofondateur de CB Insights, il y a quelques années, au sujet de la prise de décision, de l’essor de l’analytique de données et de la nécessité pour les chefs d’entreprise de trouver un juste milieu entre données et expérience humaine.
« C’est un sujet de plaisanterie classique avec nos clients ; trop souvent, les grandes décisions stratégiques reposent sur les trois piliers que sont la recherche Google, les détenteurs de MBA, et l’instinct », s’amuse-t-il.
Malgré les évolutions technologiques, les choses ont-elles changé depuis ?
Pas vraiment. Comme l’a révélé une récente étude de Quantexa, cabinet spécialisé dans l’intelligence décisionnelle, 95 % des entreprises européennes sont « paralysées par un manque de confiance quant aux décisions fondées sur les données ». Ici, « des jeux de données inexacts et incomplets » sapent leur capacité à prendre des décisions précises et fiables. De plus, l’étude réalisée par Adverity, un éditeur d’une plateforme d’analytique marketing, indique que 63 % des directeurs marketing fondent leurs décisions sur des données. A contrario, 41 % des analystes de données marketing « ont du mal à faire confiance à leurs données ».
Le rapport d’Adverity laisse supposer que les services marketing font preuve d’un optimisme déplacé. Les deux tiers se considèrent comme « matures d’un point de vue analytique », alors que 68 % d’entre eux fondent leurs rapports de données sur des feuilles de calcul. Le traitement manuel des données est un défi majeur auquel de nombreuses organisations sont confrontées. Ce rapport précise qu’il faut « remettre en question le nombre de processus manuels auxquels est soumis le jeu de données ». « Lorsque des données de Facebook et LinkedIn sont transférées dans Excel, puis dans PowerPoint, le risque d’erreur humaine est aggravé », notent les auteurs de l’étude.
Chris Hyde, responsable des solutions de données à l’échelle mondiale chez Validity, un éditeur spécialiste du data management, cite l’exemple d’un client. Celui-ci était devenu méfiant à l’égard de ses données. Son problème ? Un trop grand volume d’enregistrements en double qui générait une importante charge de travail. Tous les jours, c’est manuellement, qu’Akamai Technologies vérifiait les données, procédait à des mises à jour et fusionnait les doublons, explique-t-il. Le spécialiste du réseau a alors engagé une refonte de son système de gestion de la relation client (CRM), afin de faciliter l’accès aux outils de gestion de données.
Et ce type de situation s’aggrave lorsque les entreprises accumulent des volumes de données encore plus importants issus de sources disparates et isolées. Vishal Marria, fondateur et PDG de Quantexa, remarque que ce problème est exacerbé lorsque, par exemple, des chefs d’entreprise cherchent à se développer par le biais de fusions et acquisitions. Les groupes héritent au passage de silos de données supplémentaires qui viennent s’ajouter à un cluster existant de données fragmentées.
« Les données ne sont utiles que si elles sont administrées correctement ; or les technologies héritées, qui s’appuient généralement sur des règles et dépendent de traitements par lots (en batch), ne sont pas à la hauteur », confie Vishal Marria.
La pandémie de Covid-19 n’a fait qu’empirer les choses. Chris Hyde cite les chiffres de l’e-book The state of CRM data health in 2022, publié par Validity. Environ 79 % des personnes interrogées conviennent que la dégradation des données a augmenté à la suite de la pandémie. Il précise que cette situation est due en grande partie au fait que de nombreux employés ont changé de poste. Leur numéro de téléphone, leur adresse et leur fonction ont également changé. Sans compter que le lieu de travail et l’adresse de l’entreprise deviennent des informations négligeables à mesure que le télétravail se démocratise.
Par conséquent, les informations du système CRM sur les prospects et les contacts deviennent vite obsolètes, et les membres de l’équipe sont confrontés à une charge de travail croissante à mesure que leurs collaborateurs démissionnent.
Pour nombre d’entreprises, cette incapacité à faire face au changement est symptomatique de la mauvaise qualité des stratégies et processus de gestion des données. Il est impossible de prendre des décisions véritablement data-driven sans mettre en place une politique de gestion solide, soutenue par la direction. « Malgré ce qu’elles affirment, en ne donnant pas priorité à la gestion des données, de nombreuses entreprises encouragent des pratiques contraires à leur éthique », assure Chris Hyde.
Data-driven : pourquoi ne faut-il pas chercher la perfection ?
C’est un sujet récurrent. Les dirigeants insufflent-ils suffisamment d’oxygène dans la gestion des données pour en garantir l’exactitude ? Le sentiment que de nombreuses entreprises se sont contentées de cocher des cases pour valider la qualité des données, sans véritablement axer leurs efforts sur la valeur des données et les résultats, se fait sentir. « Nous avons une obligation de moyens », pas de résultats reconnaissait Pierre Delville, Chief Data Officer chez Euroclear, lors d’une conférence de l’éditeur Collibra à Paris. Cela dit, certains indicateurs suggèrent que cette situation est en train de changer. Les organisations sont de plus en plus nombreuses à prendre conscience qu’il est difficile et coûteux de viser l’exactitude parfaite des données.
Comme l’explique Lori Witzel, directrice de recherche pour la gestion de l’analytique et des données chez Tibco Software, « La qualité des données a toujours été régie par la gestion des risques et des coûts IT ».
« La déduplication contribuait à réduire les frais de stockage et de déplacement des données, tandis que la précision permettait de gérer leur conformité à des réglementations telles que le RGPD (règlement général sur la protection des données) et la COPPA (loi sur la protection de la vie privée des enfants en ligne) », poursuit-elle.
« Mais on constate une nouvelle tendance visant à démocratiser la qualité des données afin que les parties prenantes puissent concentrer au maximum la portée et le libre-service d’un projet, en fonction de l’importance de la qualité des données pour la génération d’indicateurs. »
La directrice précise que cette évolution va de pair avec l’abandon des équipes de gestion des données qui ont tendance à « tenter l’impossible ».
« Plutôt que de rechercher une qualité parfaite à l’échelle de l’entreprise, il faut réduire le champ d’application au strict nécessaire pour dégager des indicateurs pertinents », ajoute-t-elle. « Si l’amélioration de l’expérience client est fortement valorisée, il faut avoir une vue à 360 degrés de l’engagement des clients, ainsi qu’un projet de gestion de la qualité des données visant à unifier les différents identificateurs de chaque client. »
Lori Witzel convient qu’à défaut de posséder un MDM intelligent pour détecter et résoudre automatiquement les incohérences, il est difficile de créer une telle vue à 360 degrés. La directrice prêche ici pour sa paroisse.
« Une fois “l’enregistrement de référence” défini, la virtualisation des données peut alors fournir aux workflows analytiques cette vue globale du client, nécessaire pour améliorer l’expérience de ce dernier », précise-t-elle.
Bien entendu, pour en arriver là, il faut établir quelques hypothèses. Pour fonctionner, la démocratisation des données exige toujours un certain degré de connaissance en matière de gestion des données au sein de l’entreprise. Compte tenu de la pénurie de data scientists et de data engineers, les formations sur les données sont de plus en plus nécessaires auprès des collaborateurs. Or cela prend du temps et ne règle pas le problème dans son ensemble.
Un manque de productivité et de leadership se traduit par un socle de données peu fiable, qui mine les tentatives d’administration et conduit à une approche « en réaction », aux conséquences néfastes inévitables.
Patrick Peinoit, responsable de la gestion produit chez Talend, souligne la nécessité d’une plus grande proactivité, en affirmant que les entreprises doivent contrôler et mesurer la qualité des données avant qu’elles n’entrent dans leurs systèmes.
« L’accès aux données et leur suivi dans les applications internes, en cloud, sur le Web et mobiles est une tâche considérable », prévient-il. « La seule façon d’étendre ce mode de surveillance à tous ces types de systèmes consiste à intégrer des processus et des contrôles de qualité tout au long du parcours des données. Cette démarche peut également contribuer à faire évoluer leur qualité à mesure que les quantités et les variétés de données augmentent. »
Tout comme Lori Witzel, Patrick Peinoit est convaincu qu’une meilleure collaboration est essentielle pour démocratiser les données au sein des entreprises. Trop souvent, malheureusement, ces dernières n’acheminent pas les données vers ceux qui en ont le plus besoin. En raison de ce manque de collaboration entre les secteurs d’activité et les services IT, mais également entre les différents secteurs d’activité eux-mêmes, non seulement ceux-ci ne disposent pas des données appropriées, mais ils ne les comprennent pas non plus et ne leur font pas toujours confiance.
Le libre-service, un accélérateur pour le data-driven, selon Talend
D’après une enquête publiée par Talend en 2021, seuls 40 % des cadres déclarent avoir systématiquement confiance dans les données qu’ils exploitent. Ce score corrobore l’affirmation de Patrick Peinoit selon laquelle les entreprises doivent mettre en place des cultures de qualité des données plus collaboratives. Mais comment faire ? Le responsable produit chez Talend propose « d’adopter une approche globale de la gestion des données afin de prendre en compte leur cycle de vie complet », et de renforcer la connaissance et la compréhension des données, par exemple en centralisant la fonction de banque de données.
Patrick PenoitPrincipal Product Manager, Talend
« La qualité des données s’apparente à un sport d’équipe », affirme-t-il. « Une personne ou une équipe à elle seule ne peut pas gérer correctement les données de toute une entreprise. »
D’après M. Peinoit, le libre-service est un bon moyen de faire évoluer les normes de qualité des données.
Les applications en libre-service, par exemple pour la préparation et l’intendance des données, permettent à quiconque d’accéder à un jeu de données et de nettoyer, normaliser, transformer ou enrichir ces dernières, explique-t-il. La résolution de ce problème peut également passer par la mise en place de règles de qualité afin d’inclure le contexte métier dans la détection et la résolution des problèmes, ou par l’adoption d’une approche globale de la gouvernance des données en lien avec la gestion des métadonnées.
« Des capacités ou des workflows intelligents utilisant des technologies de machine learning, par exemple, peuvent permettre d’appliquer automatiquement des contrôles de qualité (masquage, gestion des accès, etc.) et d’améliorer la qualité des données pendant le développement d’initiatives reposant sur celles-ci. »
L’automatisation constitue une autre solution. C’est inévitable : le rôle du machine learning ne cessera de croître à mesure que les volumes de données augmenteront. Toutefois, cette technologie ne peut fonctionner que si les jeux de données sont cohérents. À moins d’une refonte des systèmes, la saisie des données et le contrôle de la qualité resteront très certainement manuels.
« La distinction entre tâches manuelles et tâches automatisées est importante », souligne Vishal Marria. Quel dosage permettra d’obtenir les meilleurs résultats ? »
C’est une bonne question. Il n’existe pas de solution universelle, mais il est indispensable de changer d’attitude, selon lui. Il faut identifier les défauts et déterminer la meilleure façon de construire un avenir data driven.
« Pour une grande entreprise qui gère de grands volumes de données, les tâches manuelles sont extrêmement exigeantes et se traduisent souvent par des inexactitudes et des lacunes dans les jeux de données », poursuit Vishal Marria. « Mais en automatisant certains aspects de ces tâches gourmandes en ressources (comme la surveillance des transactions, l’analyse des sinistres ou les processus de type “know-your-customer”), l’intelligence artificielle (IA) et le machine learning sont capables d’extrapoler des éclaircissements et de créer une vue globale unique des données du client. »
Cela ne fait aucun doute pour McKinsey : l’IA joue un rôle de plus en plus important pour assurer la qualité des données. Selon un rapport publié en décembre dernier, 40 % des entreprises utiliseraient l’IA dans ce but, et 45 % à des fins de gouvernance des données. Ce n’est pas surprenant. Toutefois, l’IA n’est pas la panacée pour les problèmes de qualité des données et de prise de décision.
Il faudra bien plus que cela : leadership, culture d’entreprise, collaboration, connaissance des données et expérience seront nécessaires pour garantir la solidité et la cohérence du socle de données, et les décisions devront être prises en connaissance de cause.