Data Sciences : recette pour faire un bon Data Storytelling

La « narration » devient une compétence analytique essentielle. Sans elle, les conclusions des Data Scientists ont tendance à n’être reprises que par eux-mêmes. Voici les ingrédients pour concocter un bon Storytelling de données.

par

Anthony Scriffignano, Ph.D.

Publié le: 16 déc. 2019

Dans un passé pas si lointain, les Data Scientists étaient jugés principalement sur leurs capacités à découvrir la donnée, à la comprendre, à sélectionner (curation) et à synthétiser l’information (insights). Au fil du temps, d’autres besoins sont apparus, comme une expertise pointue en IA (algorithmes) ou en gestion de la qualité des données.

Récemment, les organisations ont commencé à bien réaliser le retour sur investissement qu’elles pouvaient tirer de l’analytique avancé. Et une autre demande est apparue : savoir faire le lien entre ce que disent les données (d’un point de vue statistique) et ce que les métiers comprennent.

Cette capacité à démocratiser l’analytique – à créer du sens à partir d’un corpus de données et à transmettre cette compréhension d’une manière qui soit pertinente pour d’autres personnes qui ne sont pas familières avec l’analytique – est parfois appelée « Data Storytelling » (en français « la narration autour des données »).

Le pitch

Mais la chose n’est pas simple. Elle demande même beaucoup d’ingrédients et de prudence. Prenons une situation typique : on demande à une équipe d’évaluer l’intérêt d’un investissement en s’appuyant sur des facteurs objectifs.

Quel que soit le processus choisi, il y a habituellement, au début de l’analyse, une présentation – appelée « pitch » – où un ou plusieurs responsables présentent la proposition de valeur qu’ils perçoivent pour engager des fonds (ou d’autres ressources). Bien souvent, cette présentation a été précédée d’une demande à une personne « qui s’y connaît » en données – le fameux Data Scientist – pour qu’elle construise un argumentaire qui va dans le sens voulu de la démonstration.

Avec une vision claire de ce qu’ils essaient de démontrer, les Data Scientists construisent donc des modèles avec les données existantes pour appuyer les conclusions demandées.

Les Data Scientists ont également accès à d’excellents outils pour créer des visualisations. Ils les utilisent. Et l’équipe finalise alors son analyse et communique ses conclusions aux autres décideurs, comme prévu. Tout ce travail analytique se fait au service du pitch.

Mais ce scénario (trop) courant contient plusieurs erreurs en matière de « narration des données ».

Biais

En premier lieu, cet exemple classique illustre ce que l’on appelle une conclusion a priori, c’est-à-dire une hypothèse pré-établie sur la conclusion à laquelle on veut arriver avant toute forme d’analyse.

Cet a priori provoque au passage une perte d’information. En se privant de poser d’autres questions, ou de laisser parler les données par elles-mêmes dans un premier temps, on voit apparaître une sorte de biais cognitif – un biais qui vient de la façon dont on conçoit, de son propre point de vue, la problématique. Or ce n’est pas le seul angle possible.

Une autre limite qu’illustre cet exemple est le fait de travailler sur les données existantes, parce qu’elles sont disponibles. À aucun moment il n’est question de savoir si ces données sont suffisantes ou même représentatives. L’utilisation de données – simplement parce qu’elles sont immédiatement à portée de main – est appelée « échantillonnage de convenance » (« convenience sampling ») et mène le plus souvent à des conclusions, au mieux incomplètes, au pire fausses.

Enfin, l’équipe analytique a utilisé des visualisations – forcément remarquables, au vu de l’état de l’art des outils actuels de DataViz – pour présenter ses conclusions aux participants du pitch. Mais ce faisant, toute la partie approfondie et nuancée de l’analyse des données est perdue – ou, au mieux, non présente au moment de la réunion.

Même en supposant qu’il y ait eu un débat sur les points pouvant modérer les conclusions, les facteurs complexes (voire contraires aux conclusions synthétisées) sont absents de l’exposé final. La simplification est certes la clé d’une prise de décision efficace, mais une simplification excessive conduit à une décision mal argumentée.

Trois ingrédients pour un bon Data Storytelling

Par conséquent, il est important de garder à l’esprit trois bonnes pratiques de Data Storytelling :

Impliquer toutes les parties prenantes dès la création du récit analytique. Cela permet d’atténuer la perte d’informations, d’assurer une compréhension claire des conclusions et d’atténuer la perte de nuances – potentiellement critiques – dans la décision finale.
Examiner attentivement les données et la méthode analytique. Le faire est une simple question de rigueur empirique et protège contre l’échantillonnage de convenance (et d’autres biais).
Trouver le bon degré de simplification qui mène à la bonne décision. Une simplification excessive (au point d’omettre des détails qui auraient pu modifier la décision) est une lacune importante du Data Storytelling. La visualisation doit être utilisée pour raconter une histoire, mais pas pour mettre sous le tapis des points critiques de l’argumentaire – par exemple, il faut garder à l’esprit et expliquer quelles hypothèses ont été faites, pourquoi les données sont les bonnes pour arriver à la conclusion, etc.

Une pointe de fédération

Puisque nous parlons de l’évolution des compétences en rapport avec des prises de décision qui s’appuient de plus en plus sur la donnée (« data driven »), on ne peut passer sous silence une des tendances les plus importantes du moment : la « fédération » des données. En résumé : la capacité à encadrer le bon usage de la donnée dans toute l’organisation.

Au fur et à mesure que les données deviennent plus largement disponibles dans l’entreprise, il est naturel qu’un plus grand nombre de personnes aient envie de les utiliser pour « augmenter » leur travail. Mais cela ne va pas sans un accompagnement. Lorsque les logiciels de type PowerPoint se sont démocratisés, tous les professionnels (qui n’ont pas forcément des compétences en graphisme et en design) ont dû se former aux polices de caractères, aux règles de représentation, etc. Il en va de même pour l’analytique et de nombreux collaborateurs peuvent ne pas être prêts pour ce changement… ou au contraire en faire un usage trop abondant.

Les dirigeants doivent examiner attentivement les mesures qu’ils prennent pour s’assurer que leurs équipes possèdent donc les bonnes compétences – par exemple, à la formulation des problèmes, la compréhension des biais aux conditions préalables de base – et qu’ils disposent d’un support approprié de la part des experts analytiques. Sans quoi les travers du Data Storytelling se propageront dans toute l’organisation. Dit autrement, « trop de données tuera la donnée ».

C’est le cuisinier qui fait le bon ustensile, pas l’ustensile qui fait le bon cuisinier

Un autre travers à éviter est de commencer un projet analytique et de Data Storytelling en se posant la question de l’outillage.

Souvent, nous nous retrouvons dans une conversation sur un nouvel outil ou une nouvelle méthode que l’on cherche à appliquer. Il est assez courant d’entendre : « Comment pouvons-nous utiliser l’intelligence artificielle pour mieux comprendre les commentaires des clients ? » ou « Comment pouvons-nous utiliser la visualisation de données pour montrer les améliorations de notre stratégie produit ? ».

Mais il faut être très prudents. Un outil ou une technique est un moyen de résoudre une question – or la science nous apprend à commencer par une question.

Pensez à la façon dont l’approche change radicalement si vous posez ces questions en lieu et place des précédentes : « Avons-nous accès à des données sur Y qui sont suffisantes pour comprendre ce qui se passe ? » Ou, « Quelle méthode pourrions-nous utiliser pour analyser ces données ? » Ou encore : « Jusqu’à quel degré de granularité devons-nous aller pour prendre cette décision ? ».

Ce genre de questions est beaucoup plus susceptible de mener à des bons choix de jeux de données, de méthodes et de Data Storytelling, et à générer des conclusions qui mènent à des décisions bien plus judicieuses.

Data Sciences : recette pour faire un bon Data Storytelling

La « narration » devient une compétence analytique essentielle. Sans elle, les conclusions des Data Scientists ont tendance à n’être reprises que par eux-mêmes. Voici les ingrédients pour concocter un bon Storytelling de données.

Le pitch

Biais

Trois ingrédients pour un bon Data Storytelling

Une pointe de fédération

C’est le cuisinier qui fait le bon ustensile, pas l’ustensile qui fait le bon cuisinier

Pour approfondir sur Outils décisionnels et analytiques

« Customer Facing Analytics » : la nouvelle raison d’être de Toucan Toco

Avec la 2023.1, Tableau mise sur la collaboration

NLP : la tendance la plus importante de la BI en 2023, selon les experts

Toucan Toco s’étend au-delà du data storytelling