Alison Bowden - stock.adobe.com
Le rugby au soutien du Machine Learning : Data Science vs systèmes complexes (contre-ruck, 2/2)
AWS qui fait du prédictif pendant le VI Nations, en direct. Alteryx qui croit connaître les résultats de la Coupe du Monde, au point près. Le Rugby devient un terrain de jeu pour le Machine Learning. Mais on n’entre pas en Ovalie sans risquer de sévères contre-rucks.
Six mois avant le Tournoi des VI Nations et les statistiques d’AWS, le monde de l’Ovalie s’apprêtait à vivre un autre évènement majeur de son calendrier : la Coupe du Monde. Cette édition très particulière se déroulait pour la première fois sur le sol japonais. Une manière pour l’association qui fédère ce sport, World Rugby (ex-IRB), de soutenir l’expansion du rugby dans ce pays.
Une Coupe du Monde 2019 pleine d’imprévus
La Coupe du Monde n’allait pas tarder à être une des plus riches de surprises de son histoire. L’équipe du Japon déjoue tous les pronostics et développe un jeu agréable, offensif et généreux. Moins agréable, le typhon Hagibis s’abat sur l’archipel, menaçant plusieurs matchs d’annulation. L’Écosse menace alors World Rugby de procès (qui la sanctionnera en retour). Et le mythique capitaine de l’Italie, Sergio Parisse, met un terme à sa carrière sans pouvoir jouer contre les non moins mythiques All Blacks.
Bref, bien malin celui ou celle qui aurait anticipé ces imprévus.
Début septembre 2019, quelques jours avant le match d’ouverture, Alteryx prédisait pourtant le vainqueur de la Coupe du Monde de Rugby 2019, soit trois mois avant que la compétition ne livre son verdict.
L’éditeur s’était appuyé sur les données d’Opta, pour construire un modèle « de régression linéaire », et avait « analysé chaque tir, chaque placage et chaque essai de plus de 1 000 matchs des 12 dernières années, dont les trois dernières éditions de la coupe du monde », vantait son service communication.
Les All Blacks gagneront « à coup sûr » la Coupe du Monde
Conclusion ? « Nous pouvons prédire avec certitude que la Nouvelle-Zélande sera la prochaine équipe championne du monde [et qu’elle] battra le Pays de Galles en finale »
Marge d’erreur ? 0 %, donc.
Alteryx
« L’Irlande remportera son match contre l’Afrique du Sud avec 7 points d’écart. La Nouvelle-Zélande décrochera la victoire face à l’Écosse avec une avance de 18 points. L’Angleterre se qualifiera pour les demi-finales face à l’Australie avec 11 points d’avance. Enfin, la France sera éliminée par le Pays de Galles avec une différence de 12 points » listait également Alteryx.
« En demi, le Pays de Galles stoppera le parcours de l’Irlande en remportant le match avec une différence de 7 points. Et la Nouvelle-Zélande battra l’Angleterre de 3 points [avant de] gagner sa quatrième coupe du monde, face au Pays de Galles avec 8 points d’avance. Sa troisième de suite », concluait-il avec une précision impressionnante.
Systèmes complexes et contre-rucks
Sauf que toutes ces prédictions se sont révélées fausses. Toutes.
La France a certes été battue par les Gallois, mais d’un petit point (loin des 12 points prédits) au terme d’un match épique que les Gallois auraient certainement perdu si un Français – si français – n’avait perdu la tête et donné un coup de coude dans la gorge d’un adversaire lors d’un maul.
Le quinze du poireau n’a ensuite pas rencontré l’Irlande (qui a perdu en quart). L’Écosse n’est pas sortie des poules (la faute au Japon). L’Angleterre a fait mordre le gazon aux Blacks. Et le vainqueur a été l’Afrique du Sud.
Pire, le seul bon pronostic du modèle d’Alteryx sur les participants et leurs positions dans les quarts était la présence de l’Irlande dans le deuxième match. Un parieur qui aurait misé en s’appuyant sur ces pronostics aurait absolument tout perdu.
Faut-il pour autant jeter le prédictif aux orties ? Non. Évidemment. Mais le prédictif ne peut prédire que… ce qu’il peut prévoir.
Appliquer du ML sur un mondial de Rugby peut être intéressant d’un point de vue de pure communication, mais l’exercice est au final contre-productif d’un point de vue Data Science parce qu’une compétition de ce type s’apparente à un « système complexe ». Un système complexe est un système mathématique dont le comportement est, par définition, imprévisible (cours de bourse, météo à moyen terme, etc.) et dont une différence minime en entrée génère des résultats radicalement différents en sortie.
Ici, par exemple, les probabilités de chaque match se cumulent. Il y avait peut-être une chance sur deux que l’Angleterre batte les Blacks en demi (ce qu’ils ont fait), puis une sur deux qu’ils battent ensuite les Springboks en final. Mais il y avait donc seulement une chance sur quatre, de sacre pour le XV de la Rose.
De même, un léger écart provoque effectivement des scénarios radicalement différents. Une différence de points dans un match de poule a pu modifier le classement de celle-ci, puis la composition du tableau final, et par « effet papillon » le vainqueur.
Un système complexe n’est donc pas propice à l’analytique prédictive. Un métier qui s’essayerait à la Data Science (ce qu’Alteryx appelle de ses vœux et qu’il nomme le Citizen Data Scientist) peut, s’il n’est pas accompagné, faire du ML là où il ne faut pas.
De surcroît, faire preuve d’une telle assurance dans ses prévisions, c’est oublier que les évènements inattendus arrivent (résultat du Japon, erreur d’arbitrage, etc.) et que dans le domaine du prédictif, tout est toujours histoire de probabilités et pas de certitudes.
Bref, le Rugby peut venir au soutien du Machine Learning pour le rendre plus intelligible. Mais il peut aussi lui rappeler des valeurs primordiales comme l’humilité et la rigueur sans lesquelles les contre-rucks promettent d’être sévèrement musclés.
Lire aussi la 1re partie de cet article :
Le rugby au soutien du Machine Learning : prédictions vs prévisions (ruck, 1/2)