massimhokuto - stock.adobe.com
Le rugby au soutien du Machine Learning : prédictions vs prévisions (ruck, 1/2)
AWS qui fait du prédictif pendant le VI Nations, en direct. Alteryx qui croit connaître les résultats de la Coupe du Monde, au point près. Le Rugby devient un terrain de jeu pour le Machine Learning. Mais on n’entre pas en Ovalie sans risquer de sévères contre-rucks.
Tournoi des VI Nations 2020. Le 1er février. Irlande-Ecosse, à Dublin. Devant son public, le très expérimenté Jonathan Sexton, capitaine de l’Irlande et ancien du Racing (Paris), se présente face au poteau.
Il est un peu loin (42 m), mais bien centré. Il pose le cuir sur le tee. Recule. Prends une respiration profonde. Le public fait le silence dans le stade. Sexton s’élance.
Il frappe le ballon qui s’élève vers les poteaux. Le public retient son souffle.
90 % de chance de passer une pénalité
En 2019, AWS est devenu partenaire du tournoi de rugby des VI Nations. Depuis cette année, le prestataire IT fournit des statistiques plus poussées sur les zones de rucks, l’occupation (par zones), les placages (défensifs, offensifs), etc. Le tout agrémenté, en direct, d’une pointe d’analytique prédictive sur les pénalités.
Pour ces prévisions, AWS a compilé les données historiques sur les zones où les pénalités ont été tentées, le moment du match, la météo, l’adversaire, le buteur, etc.
Lorsque le capitaine irlandais frappe sa pénalité, AWS fait cette prévision :
Retour au direct. Le ballon s’élève. Les spectateurs le suivent des yeux. Il atteint son sommet puis redescend. Et passe à côté.
Jonathan Sexton vient de louper une tentative que le Machine Learning (ML) lui donnait plus de 90 % de chances de réussir.
Les deux commentateurs de France Télévision, goguenards, se moquent alors de cette « prédiction », dans un exemple intéressant d’incompréhension des statistiques probabilistes qui sonne comme un avertissement pour tout Data Scientist.
Pour les présentateurs, comme pour beaucoup de monde, les probabilités ressemblent à des votes. Instinctivement, s’il y a 60 % de chances qu’un évènement ait lieu, alors nous pensons qu’il aura effectivement lieu parce que l’évènement en question a, en quelque sorte, gagné une élection avec 60 % des voix.
Or les probabilités ne répondent pas à ce principe du « gagnant prend tout » (« winner takes all ») à l’œuvre dans une élection majoritaire. Elles représentent au contraire la ventilation des hypothèses de sortie.
Dans le cas du pauvre Sexton – qui malgré une prestation effroyable a au final gagné avec l’Irlande contre l’Écosse – la probabilité de 91 % d’AWS disait simplement que s’il tentait 10 fois la pénalité du même endroit, au même moment, dans les mêmes conditions, alors il en louperait certainement une sur les dix.
Probabilité, prévision et prédiction
Pour le Data Storytelling, un des problèmes du Machine Learning – et encore plus de sa branche qu’est le prédictif – est qu’il repose sur un domaine des mathématiques le plus mal compris par le grand public : les probabilités.
Le nom français du Machine Learning le traduit d’ailleurs bien puisque l’on parle d’apprentissage statistique. Autrement dit, le ML compile des données passées, il y cherche des schémas récurrents, il induit des corrélations (ce que nous avons aussi trop vite fait de traduire par des liens de causalités, ce qu’ils ne sont pas forcément) et il extrapole des résultats futurs en fonction de ces corrélations statistiques qu’il a fait jaillir du passé.
Si jusqu’ici les élèves qui sont bons en histoire sont également bons en littérature, alors on peut penser qu’à l’avenir ce sera la même chose (mais l’un est-il la conséquence de l’autre ? Rien n’est moins sûr, ils peuvent par exemple avoir une cause commune).
Mais comme les corrélations entre des variables différentes ne sont jamais à 100 % (il n’est pas dit que tous les passionnés d’histoire soient aussi des passionnés de littérature), la Data Sciences livre ses résultats pour l’avenir sous forme de probabilités.
Il est donc faux de parler de « prédiction ». D’ailleurs, ce que les éditeurs appellent « prédictif » vient de l’anglais « Predictive Analytics », qui se traduit plus exactement par « prévision » ou « analyse prévisionnelle ».
La subtilité est majeure. La pythie de Delphes fait des prédictions parce qu’elle voit l’avenir. La météo, elle, fait des prévisions. Elle l’évalue. Et elle l’évalue avec une marge d’erreur (qui varie en fonction de l’échéance de la prévision).
En résumé : une prédiction est une prévision qui à 100 % de chance de se réaliser. Le ML ne prédit donc rien. Il évoque des hypothèses probables. AWS et Sexton illustrent bien ce point, de manière ludique et pertinente.
Les statistiques ne sont pas naturelles pour l’homme
Familiariser le public d’un Data Storyteller est d’autant plus indispensable que l’esprit humain n’est pas taillé pour appréhender les statistiques de manière instinctive. Ce fait vient largement de l’évolution de notre espèce qui, pour survivre, a dû économiser de l’énergie cérébrale, prioriser et simplifier les problèmes, et créer des raccourcis pour agir vite (et au final bien). Ces points sont remarquablement documentés dans des ouvrages de référence comme « Thinking, fast and slow » du Prix Nobel d’Économie Daniel Kahneman, ou « Le hasard sauvage » du théoricien du cygne noir, Nassim Nicholas Taleb (parmi d’autres ouvrages).
La contrepartie du fonctionnement incroyablement efficace de notre cerveau dans les situations que nous rencontrons couramment est que les probabilités nous sont parfaitement contre-intuitives, du fait que nous n’en avons pas besoin dans nos contextes les plus familiers. Pire, nous projetons des résultats faux.
Loto et pénalités
Des milliers de joueurs de loto sont par exemple persuadés qu’il est utile de tenir compte des tirages passés. Pour eux, si un chiffre est déjà sorti plusieurs fois, il faut le jouer (parce qu’il sort plus que les autres) ou au contraire ne pas le jouer (parce qu’il est déjà beaucoup sorti et que la probabilité va se ré-équilibrer). Dans les deux cas, cela n’a aucun sens puisque les tirages sont décorrélés.
Revenons à Sexton. Il marmonne, mécontent de lui-même après cette pénalité loupée. Mais il n’a pas invalidé la prévision d’AWS qui dit que sur 10 tentatives, l’Irlandais en ratera presque à coup sûr une sur les dix. Ce qu’il a fait.
Imaginons maintenant qu’il en tente effectivement dix à la suite. Imaginons aussi que le buteur réussisse ses neuf premières pénalités. Quelle est la probabilité qu’il loupe la dixième ?
100 % penseront certains, puisqu’il doit forcément en louper une. Et ils parieront gros. Mais, c’est faux. Comme les tentatives sont décorrélées les unes des autres, sa chance d’échec reste de 1/10.
Un Data Scientist aura tout intérêt à ne pas oublier qui est son public et que celui-ci peut ne pas être habitué à ces nuances mathématiques. Et, revers de la médaille, les sceptiques (qui préfèrent les décisions à l’instinct) auront tôt fait de discréditer les résultats du ML, comme l’ont fait les présentateurs de France 2.
En plus de la mauvaise compréhension de leurs résultats, un autre péril du Machine Learning et du Deep Learning est de leur donner des pouvoirs quasi magiques et par excès d’enthousiasme de les appliquer là où il ne le faudrait pas.
Lire aussi la 2e partie de cet article :
Le rugby au soutien du Machine Learning : Data Science vs systèmes complexes (contre-ruck, 2/2)
Cette partie aborde précisément ce point du Machine Learning mal appliqué, en particulier pour faire des prévisions sur un système complexe comme une Coupe du Monde de Rugby.