Ces avertissements que le fiasco des sondeurs envoie aux Data Analysts
La victoire de François Fillon aux primaires de la Droite et du Centre est une nouvelle surprise. Mais comme celles de l’élection de Donald Trump, du Brexit et des scores du FN aux régionales, elle est riche d’enseignements et de mises au point pour les Data Analysts (et pour les dirigeants d’entreprises).
Et une surprise de plus, une. La victoire à la primaire de la Droite (et du Centre) de François Fillon est un nouveau caillou dans le jardin des sondeurs, des professionnels de la prédiction et des analystes politiques.
Un caillou de plus après les résultats du FN aux régionales, le Brexit, et bien sûr l’élection de Donald Trump. Toutes ces incertitudes de 2016 ont jeté un doute sur les outils prédictifs. Logique. Mais elles devraient aussi – et surtout – souligner la manière raisonnable de les utiliser correctement.
Ces erreurs de prédictions sont en effet riches d’enseignements pour les responsables de projets analytiques et pour leurs équipes dirigeantes.
Les maths ne sont pas le révélateur d’un esprit Hégélien
Le premier enseignement est que tout n’est pas prévisible. Les mathématiques sont adaptées à certaines situations (comme analyser les remplissages d’un hôtel ou simuler l’évolution de l’univers en partant d’une origine donnée et en s’appuyant sur un ensemble de règles physico-chimiques). Mais les mathématiques sont moins adaptées, voire pas du tout, à d’autres situations. Songez qu’on ne sait toujours pas prédire avec certitude la météo – c’est-à-dire l’état d’un système dont on connait pourtant la constitution et les grandes règles d’interactions.
Il en va de même des foules. Il est certes possible de prédire avec une faible marge d’erreur (c’est-à-dire de trouver des corrélations qui ont de fortes chances de se reproduire) que la vente de parapluies va augmenter s’il pleut en juin – ou qu’en temps de récession économique, les ventes d’animaux domestiques et de produits associés augmentent (fait vérifié) –, mais il est beaucoup plus hasardeux de modéliser les opinions – alias la fameuse opinion publique - qui se rapprochent de micro-évènements météorologiques.
Pour bien aborder le prédictif, il faut donc déjà faire le deuil de la croyance que les mathématiques seraient une « vérité de la nature ». Ou le révélateur en puissance d’un esprit Hégélien (l’Esprit du Peuple), d’une entité Platonicienne (les Idéaux derrière chaque chose) ou d’une force en action qu’il serait possible de révéler pour rendre l’avenir de tout intelligible, tel un oracle se plongeant dans l’Aleph de Borgès.
Les mathématiques sont d’une « inefficacité raisonnable »
Le débat n’est pas nouveau. Dès 1959, un professeur de Princeton, Eugène P. Winger, s’étonnait de cet étrange pouvoir de modélisation du monde qu’ont les mathématiques. Il posait la question des causes de cette faculté à le comprendre et à le prédire dans « The Unreasonable Effectiveness of Mathematics in Natural Sciences ».
A ce texte, s’est opposée une autre théorie : les mathématiques sont bonnes à comprendre ce qu’elles sont bonnes à comprendre. Ni plus. Ni moins.
Son « efficacité déraisonnable » ne serait en résumé qu’un effet d’optique, une vision qui ne s’appuierait historiquement que sur les succès de la discipline, laissant plus ou moins volontairement ses échecs dans l’ombre.
Les modèles mathématiques de la physique théorique ne se transposent en effet pas aussi facilement que cela dans d’autres domaines, ou mêmes dans la pratique. Les ingénieurs – qui par définition touchent au réel - sont bien placés pour le savoir.
Les mathématiques sont par exemple désarmées à comprendre le comportement de l’eau qui bout, les variations de la bourse (n’en déplaisent aux quants), les interactions des neurones sans parler de la psychologie humaine.
« Les systèmes biologiques et économiques sont très difficiles à modéliser », avance Derek Abbott de l’Université d’Adelaide. Les mathématiques ne seraient donc pas d’une « efficacité déraisonnable » comme l’affirme Eugène Winger, mais au contraire d’une « inefficacité raisonnable » (dixit « The Reasonable Ineffectiveness of Mathematics »).
Un point à garder à l’esprit lorsque les Data Analysts doivent commencer à prédire, car la prédiction – tout comme la conception d’objets par les ingénieurs – est le moment précis où « l’élégance des mathématiques se frotte au fouillis de la réalité » (comme le résumait un documentaire d’Arte).
Demandez-vous si le problème à gérer est solvable dans les maths (scoring, churn, etc.) ou s’il faut envisager d’être « raisonnablement » dans l’erreur (prédire un cours de bourse ou un comportement social ou le résultat d’une élection).
« Les gens ne comprennent par les probabilités ». Mais ils aiment les chiffres
Au-delà de ces limites intrinsèques des algorithmes, souvent sous-estimées dans les discours marketing des éditeurs IT, les prédictions sont avant tout affaires de probabilités. Or, le commun des mortels n’y entend quasiment rien en probabilité.
Si l’on reprend l’exemple de l’élection américaine, il est faux de dire que les prévisions se sont trompées. Aucune n’a dit que la victoire d’Hillary Clinton était sûre à 100%. Mais ce n’est pas ce qu’entend le public non averti (ce qui est le cas d’un dirigeant ou d’un responsable métier).
« Malheureusement, les prévisionnistes donnent des chiffres avec un ou deux chiffres après la virgule, ça fait scientifique, mais ça n’est pas du tout scientifique », regrette Pradeep Mutalik, chercheur au Yale Center for Medical Informatics. « On survend une certitude. Résultat, on a fini par tomber de haut ».
La vérité des prévisions, c’est que le New York Times donnait 85% de chance de victoire pour la Démocrate. Le projet FiveThirtyEight donnait 71.4% de chances. Seul le modèle du Huffington affirmait que la chose était quasi entendue (98%). Mais même dans ce cas, il restait une probabilité non nulle que Trump gagne.
Ce que FiveThirtyEight disait, c’est que dans 3 scénarii sur 10, Donald Trump devenait Président des Etats-Unis. Mais qu’a compris le néophyte ? Que comme elle avait la majorité des chances, Hillary Clinton avait la majorité des voix et donc que l’élection était gagnée.
« Or ce n’étaient que des probas, mais les gens ne comprennent pas les probas », continue Pradeep Mutalik. « A mon avis, c’est un problème de présentation et je trouve assez irresponsable d’avoir présenté ces données de cette manière. »
Adaptez le discours à votre public et expliquer qu’une prévision est une probabilité, avec (en plus) une marge d’erreur
La donnée n’est pas objective, jamais
Autre problème des prévisions, elles se nourrissent de données. Or ces données sont le plus souvent de qualité moyenne, si ce n’est pire – que ce soit pour les sondages ou en entreprise.
L’illusion ici est de croire qu’une donnée est une fraction de vérité. Ce n’est pas le cas. Une donnée est presque toujours subjective, manipulable, sujette à caution. Prenons un exemple simple d’un site web d’entreprise.
L’audience d’un site peut paraitre évidente à mesurer. Mais concrètement, certains sites utilisent la technique du « refresh » (la page se recharge au bout de quelques dizaines de secondes) et font artificiellement monter leurs compteurs. Autre question : qu’en est-il d’un visiteur qui « rebondit » en moins de 5 secondes (qui vient sur une page et voyant qu’elle ne lui convient pas repart aussi tôt) ? Est-ce de l’audience ou de fausses visites ?
Les données elles-mêmes doivent donc être « nettoyées » (ici retirer les rebonds par exemple), une phase qui repose sur des règles choisies (à partir de combien de secondes considère-t-on que c’est une fausse visite), autrement dit qui introduit de la subjectivité (2 secondes, 5 secondes, 10 secondes ?).
En politique, les sondeurs « redressent » les résultats en s’appuyant sur des statistiques historiques. Si les électeurs FN se sont déclarés à hauteur de 10 % à l’élection précédente, mais que le FN a réalisé 15%, on en déduit que 5% (ou un tiers ?) des partisans de ce parti mentent aux sondeurs.
S’ils sont 20 % à se déclarer à l’élection en cours, le sondeur redressera son résultat pour évaluer le vote réel entre 25% et 30%.
Oui mais voilà, le système fonctionne si l’on a des données historiques. Or un duel entre deux candidats – Clinton vs Trump ou Fillon contre Juppé – est un évènement unique (un « one-time event » disent les anglo-saxons). Il n’a pas réellement de passé et sa conclusion ne servira pas à d’autres duels.
C’est ce que constate le PDG du cabinet de conseil Decision Management Solutions. Wayne Eckerson – spécialiste en BI - qui ne dit pas autre chose quand il rappelle, fort à propos, que « faire des modèles analytiques est à la fois une science et un art ».
Sans compter que « la correction historique » peut évoluer avec le temps (les électeurs du FN peuvent avoir de moins en moins « honte » de déclarer leurs intentions).
Comprenez vos données. Et rappelez que les données sont des informations imparfaites (ce qui ne veut pas dire qu’elles soient mauvaises)
Cassandre, ou prédire sans convaincre
Une conséquence de cette subjectivité est que les chiffres sont manipulables. Pas forcément de manière volontaire d’ailleurs.
Une sensibilité politique va induire une manière de traiter les chiffres. La forte progression de François Fillon avait été « sentie » par les sondeurs. Mais la plupart des analystes n’en avaient pas mesurée l’ampleur. Il ne croyait pas une telle proportion « plausible ». Tout comme les analystes de la presse américaine n’ont pas envisagé d’autres options que celles qu’ils croyaient probables.
L’enseignement ici est qu’il est préférable de ne pas projeter ses intuitions. C’est difficile, dans la mesure ou un rapport ou un tableau de bord repose toujours sur des questions. Et que ces questions orientent les réponses.
Si l’on inverse la problématique, tant qu’à démontrer une intuition, autant le faire clairement et de manière assumée.
La question peut paraitre théorique mais elle est beaucoup plus épineuse qu’on ne le croit en entreprise. Bien souvent, un rapport demandé par une direction est – plus ou moins clairement - destiné à appuyer l’orientation décidée… pas à la remettre en cause.
Le Data Analyste, comme le politologue qui - ayant écouté la France ou l’Angleterre profondes, ou la base des militants UMP/RP - aurait prédit les résultats du FN, le Brexit et la victoire de Fillon, se retrouve dans la position de Cassandre : un bon spécialiste du prédictif, condamné à ne pas être écouté.
Ne projetez pas votre vision sur les chiffres (sauf si bien sûr, il faut orienter les données pour appuyer une thèse diplomatique)
Faites des enquêtes, pas des sondages
Une manière de contrer les risques liés aux données imparfaites consiste à mélanger les sources. Mais à mélanger des sources vraiment différentes.
Une méthode employée pendant l’élection américaine a été de compulser des sondages (RealClear Politics). Chaque sondage ayant une marge d’erreur, l’idée était qu’en les agrégeant, ces marges s’annuleraient. C’est une illusion si ces sondages, d’une manière ou d’une autre, sont corrélés (même manière de construire les panels, par exemple). Ou si les sondages sont foncièrement faux (mélanger des ingrédients « pourris » n’a jamais permis de faire un bon plat).
On retrouve ce biais dans la finance, dans la construction de produits dérivés des « subprimes ». A l’époque, les organismes de crédits ont commencé à prêter des sommes importantes à des débiteurs peu solvables, en assurant le prêt par des hypothèques (les subprimes en question). Ces crédits à fort risques de non-remboursement ont été mélangés à des crédits plus sûrs pour être revendus sur les marchés financiers.
Mais plus les prêts « pourris » se sont développés, plus il a été difficile de les mixer avec des prêts viables (qui eux ne se multipliaient pas comme des petits pains, le marché des acheteurs solvables étant limité).
Pour revendre ces crédits à risque, les prêteurs ont alors eu l’idée de les mélanger entre eux : un prêt à risque californien, avec un prêt à risque au Nevada, avec un prêt à risque en Floride, etc. Du « pourri » avec du « pourri ». Les analystes des agences de notation ont pourtant donné la note maximale à ces attelages chancelants (les CDO). Pourquoi ?
Parce qu’ils ont projeté leur vision sur ces CDOs (ces produits émanaient d’institutions respectables) – cf. point précédent – et parce qu’ils ont considéré qu’il s’agissait d’une vraie diversification. Or ce n’en était pas une. Il y avait peut-être un marché solvable californien différent du marché solvable de la Floride, mais les causes du risque (prêter à des non-solvables) étaient partout les mêmes. Les chiffres n’étaient pas objectifs mais orientés, et les biais étaient corrélés.
En fait, le vrai moyen de rectifier ces biais est d’observer des phénomènes différents. Michael Cohen, professeur à la George Washington University Graduate School of Political Management, explique par exemple qu’il aurait été plus efficace de croiser les sondages avec d’une part les affluences des meetings et d’autres part les manifestations sur les réseaux. Deux points qui montraient que Trump n’étaient pas en train de plafonner mais d’attirer de plus en plus d’électeurs.
Cette démarche n’est pas très loin d’une étude qualitative en marketing. Ou du « Walking Management », en entreprise, une pratique qui consiste à marcher dans les couloirs pour parler sans intermédiaire aux employés et à avoir une vision directe du terrain.
Pour en revenir aux Subprimes, le film « The Big Short » illustre cette nécessité d’aller au-delà des rapports chiffrés et d’enquêter plus globalement.
Issu d’un livre écrit par Michael Lewis - un ancien trader aujourd’hui invité dans beaucoup de salon IT - le film retrace les histoires vraies de financiers ayant vu avant les autres la crise arriver (et qui ont donc parié dessus).
Le moment le plus intéressant est celui où un des analystes financiers, irascibles et associables, se rend à Las Vegas. Il y découvre qu’une strip-teaseuse a acheté six maisons, à crédits, et que ces ventes ont été réalisées par des incompétents qui n’y connaissent rien ni en immobilier, ni en crédit. Pourtant les chiffres indiquaient que tout allait bien. Parce qu’il le fallait.
Mais l’enquête terrain disait le contraire.
Appliqué à Donald Trump, tous ceux qui sont allés sur le champ de bataille (de Mickael Moore à la française Laure Mandeville) ont envisagé que sa victoire était possible.
Croisez les sources, ajoutez du qualitatif, regardez aussi le terrain et pas que les chiffres.
Big Data is not dead
Lorsque les données (Big Data) et les outils (analytics) sont bien utilisés, le prédictif a encore du sens. Encore faut-il respecter les incertitudes et faire preuve de bon sens. La preuve ? L’équipe mise en place par Donald Trump, lui-même.
Une enquête de Wired montre comment ses analystes (le cabinet Cambridge Analytica) ont vu les signes annonciateurs d’une victoire de plus en plus probable. En décortiquant les votes anticipés, ils se sont rendus compte que les afro-américains avaient moins voté et que les plus de 55 ans plus voté. Deux facteurs qui – probablement – montraient que la mobilisation anticipée était bonne pour Trump, (alors que le directeur de campagne d’Hillary Clinton s’en félicitait).
La conviction s’est renforcée avec la progression du vote rurale, une population désabusée qui ne se déplaçait plus aux élections.
Ce qui fait dire au responsable de Cambridge Analytica, Matt Oczkowski, que « si l’équipe de Clinton a perçu ces signes, elle n’a pas voulu les admettre » (toujours ce biais de projection qui a également berné les équipe d’Alain Juppé).
« La donnée n’est pas morte », conclue Matt Oczkowski, « au contraire, elle n’a jamais été aussi vivante ! Toute la question est de savoir comment vous l’exploitez et comment vous envoyez par-dessus bord [les idées reçues] pour les comprendre ».
Un conseil qui dépasse de loin le simple microcosme politique.
En collaboration avec Search Business Analytics
Pour approfondir sur Outils décisionnels et analytiques
-
Élections américaines : quel signal le choix du colistier de Trump envoie-t-il au monde de l’IT ?
-
Processeurs : ce tremblement de terre à Taiwan qui secoue l’industrie
-
Les leçons à retenir du controversé BlenderBot 3 de Meta
-
Data Science : différence entre intervalle de confiance, niveaux de confiance et de signification