WavebreakmediaMicro - Fotolia
Data science : comment LaLiga Tech a remporté son pari
Il y a près de quatre ans, LaLiga, la première ligue espagnole de football, a fait le pari de la data science. Sa filiale, LaLiga Tech, exploite désormais les capacités d’un data lake dédié à l’analytique et à l’IA et veut adapter ses solutions à d’autres compétitions sportives.
Un geste technique d’apparence simple. Beaucoup de sang-froid. Des réactions par millier sur les réseaux sociaux. Voilà le genre d’événement que LaLiga Tech analyse quand un joueur comme Karim Benzema réussit une Panenka sur pénalty à la 81e minute de la demi-finale de la ligue des champions qui opposait le Real Madrid à Manchester City le mardi 26 avril 2022.
LaLiga Tech est une entité émanant de LaLiga, l’organisation responsable du championnat de la première division espagnole de football. Elle développe depuis près de huit ans un ensemble de solutions technologiques, dont une plateforme OTT (over-the-top) qui permet de diffuser du contenu depuis une application mobile ou Web.
« Nous avons fait un gros pari technologique en 2013 pour moderniser et professionnaliser la compétition et étendre les possibilités de croissance pour LaLiga », déclare Tom Woods, Marketing and Communications Lead, chez LaLiga Tech. « C’est quelque chose qui a conduit la croissance de LaLiga pendant de nombreuses années dans le monde entier et dans tous les aspects de son engagement : de la façon dont elle produit son contenu, à la manière dont les équipes se préparent, en passant par la gestion de la compétition », ajoute-t-il.
Il y a environ 10 mois, elle a lancé LaLiga Tech comme une filiale technologique qui s’adresse aux clubs sportifs cherchant à engager les fans, suivre les performances des joueurs et protéger les droits de diffusion d’événements en tout genre.
L’une des spécialités de LaLiga Tech, c’est le traitement des données. Que ce soit pour analyser le comportement des audiences, mesurer la consommation des contenus depuis les plateformes de diffusion ou les réseaux sociaux, pour détecter les détournements de flux sous licence et la fraude sur les paris sportifs, vendre des billets et des produits dérivés, etc. ; « tout se résume finalement aux données », selon Tom Woods.
Mais pas question pour LaLiga Tech de créer de nouveaux silos ou de se disperser à travers différents systèmes. Les data scientists ont donc poussé l’adoption d’un data lake.
« C’est plus facile de travailler quand vous avez les données réunies au même endroit », affirme Rafa Zambrano, responsable de la data science chez LaLiga Tech. « Quand nous avons commencé, c’était complexe de déployer les modèles statistiques et de machine learning parce que les données étaient éparpillées dans différents systèmes ».
Rafa ZambranoResponsable Data Science, LaLiga Tech
LaLiga Tech a choisi Apache Spark, puis Databricks
Il y a environ quatre ans, LaLiga a choisi de déployer un data lake. Selon Rafa Zambrano, les data scientists voulaient « une administration et une maintenance à faible coût » et cherchaient « à accélérer le développement » de leurs projets. Leur choix s’est porté sur Databricks sur le cloud Microsoft Azure, via l’offre Azure Databricks.
Dans un billet de blog (en espagnol), Guillermo Roldán, responsable de l’architecture chez LaLiga Tech, explique en détail le choix de Databricks. La filiale souhaitait une solution pour traiter les événements en batch ou en temps réel qui s’exécute dans le cloud et qui est capable de s’appuyer sur des GPU. Elle cherchait à éviter l’enfermement propriétaire, en se laissant la possibilité de négocier au besoin la migration vers d’autres clouds.
Finalement, le responsable de l’architecture apprécie l’intégration d’Azure Databricks avec Azure AD, l’autoscaling, le paiement à l’usage et les environnements de data science intégrant des notebooks. Précisons que Microsoft est un des partenaires de LaLiga.
Malgré la disponibilité de Databricks sur différents clouds, la vigilance concernant la dépendance au fournisseur et à l’éditeur choisis demeure. Pour en limiter les effets, LaLiga Tech a fait le choix de « parier sur Apache Spark », ce qui lui offre une « tranquillité d’esprit », puisqu’il n’est pas nécessaire d’utiliser Databricks ou Azure pour exécuter des jobs Spark, selon Guillermo Roldán.
Cela n’empêche pas LaLiga Tech d’exploiter la grande majorité des fonctionnalités offertes par ce « Lakehouse ».
« Nous utilisons Databricks pour un ensemble de projets de Big Data, quand nous avons besoin du moteur Apache Spark pour traiter rapidement des données, nous employons le scheduler pour automatiser et tester nos jobs, nous avons plusieurs stores de métadonnées pour administrer les données et la sécurité », liste Rafa Zambrano. « Nous traitons des données en temps réel avec Databricks et nous commençons à tester les fonctionnalités MLOps et de gouvernance de modèles d’IA, dans le cadre de nos projets de data science ».
Ainsi, le data lake permet de réunir les données en provenance de nombreux SGBD pour analyser les engagements et les besoins de plus de 15 millions de fans sur différents sites Web, les réseaux sociaux, les plateformes OTT et sur plusieurs applications.
« Le fait d’avoir ces données dans un lac de données central nous donne l’opportunité de vraiment comprendre qui sont les fans et d’identifier des profils », avance Tom Woods. « Est-ce qu’il s’agit de quelqu’un qui vient au stade ? A-t-il l’intention d’acheter des produits dérivés ? Qui interagit avec notre plateforme de jeu ? etc. ».
Des analyses de données de plus en plus spécifiques
« Cela nous aide à atteindre les spectateurs, à rendre la compétition plus pertinente pour ces types de public. Et cela aide à alimenter la croissance de notre groupe », poursuit-il.
L’environnement de data science comprend aussi les données et les statistiques produites lors des matchs de football. « Nous avons une vue sur tous les événements d’un match : les scores, les fautes, le nombre de passes, les actions de chaque joueur, etc. ainsi que le suivi de la position des joueurs et de la balle à l’aide de caméras spécifiques », explique Rafa Zambrano. « Nous générons un data set de 3 millions de lignes environ par match ».
Chaque stade des clubs membres de LaLiga est équipé de 16 caméras de suivi optique qui positionnent les sportifs et les arbitres par rapport à la balle 25 fois par seconde. Pour cela, LaLiga Tech emploie la technologie de computer vision de ChyronHego, un spécialiste des technologies de retransmission d’événements médiatiques. Ces données sont combinées avec les événements obtenus grâce à la plateforme de statistiques sportives Opta Sport.
Ce gros volume de données obtenu en batch ou en temps réel permet de « produire des statistiques et des prédictions intéressantes », dixit le responsable de la data science. « Par exemple, quand un joueur tire vers le but, nous sommes capables de calculer la probabilité qu’il marque », illustre-t-il.
C’est l’une des fonctionnalités de MediaCoach, une solution proposée à la fois aux diffuseurs et aux clubs de football. Celle-ci extrait plus de 1 900 points de données par joueur (et 300 métriques en temps réel). Les clubs, eux, l’utilisent pour analyser et améliorer les tactiques des équipes. L’outil peut également analyser les actions des arbitres, l’objectif étant d’éviter au maximum les interruptions afin de rendre les matchs les plus fluides possibles.
Pour détecter et empêcher les matchs arrangés, LaLiga Tech analyse en temps réel les données en provenance de quarante plateformes de paris sportifs. Un réseau de neurones est utilisé pour détecter si certains paris sortent de la norme ou pour identifier les parieurs proches des équipes ou des joueurs. « Notre réseau de neurones effectue des prédictions sur les pronostics. Un modèle de régression compare ces prédictions avec les données temps réel en provenance des plateformes de paris », explique Rafa Zambano. « Le modèle de régression facilite l’explication des comparaisons. Nous pouvons indiquer quelles variables influent le plus sur un résultat en sortie avant que l’équipe en charge de cette analyse prévienne la police ».
LaLiga Tech s’intéresse à d’autres sports
LaLiga Tech a donc réussi à développer un large éventail de solutions pour traiter les données d’une compétition sportive : le football. Elle doit désormais adapter ses algorithmes à d’autres sports.
Rafa ZambranoResponsable data science, LaLiga Tech
« Actuellement, mon principal défi est de reproduire ce que nous avons obtenu avec LaLiga pour répondre aux besoins d’autres compétitions », affirme Rafa Zambano. « Nous devons adapter nos solutions à d’autres sports, travailler avec d’autres partenaires ».
De son côté, Tom Woods estime que LaLiga Tech a réussi son pari technologique et que l’entité, tout comme sa société mère, participe à l’attractivité du championnat espagnol.
« Nous nous considérons responsables de l’engagement des fans, de la protection des contenus, de la lutte contre la fraude et de bien d’autres aspects », assure Tom Woods.
« Il y a d’autres institutions dans l’industrie du sport qui cherchent à faire la même chose. Nous avons des packages de technologies qui fonctionnent déjà, les bons connecteurs vers les écosystèmes IT et certains clubs les utilisent en production », poursuit-il.
Et si les premiers clients de LaLiga Tech sont les ligues de football espagnoles et belges, l’entité a bien l’intention de proposer ses services à un ensemble de ligues sportives, y compris celles consacrées à l’e-sport, mais aussi aux diffuseurs. « Nous avons un contrat avec le World Padel Tour, un sport qui gagne rapidement en popularité », illustre Tom Woods. Pour ceux qui le découvrent, le padel est un sport de raquettes qui mélange les règles du tennis, du squash, du tennis de table et de la pelote basque. « Nous avons bâti leur plateforme OTT. Aujourd’hui, ils ont plus de 400 000 usagers inscrits », décrit le responsable de la communication.