Analytique : Betclic parie sur le cloud
Dans l’objectif de migrer son architecture BI et analytique sur le cloud, Betclic utilise les services de Talend Cloud. Le spécialiste du pari sportif effectue des traitements au plus près des données encore stockées sur site, mais les gère depuis le nuage.
Fondée à Malte en 2005, mais basée à Bordeaux, Betlic s’est taillé un nom sur le marché du pari sportif. En France, le site web et l’application associée permettent aux joueurs de parier sur les résultats sportifs autorisés par l’Arjel (Autorité de Régulation des jeux en ligne). L’entreprise est également présente au Portugal et au Royaume-Uni. Betclic propose aussi des tables de poker virtuelles.
Cette entreprise fondée par le Français Nicolas Béraud a fait évoluer son équipe BI et l’infrastructure IT associée. Christofer Daussion, responsable de la BI et de la plateforme data chez Betclic, a été engagé il y a deux ans. Son rôle était de faire grossir l’équipe BI jusqu’alors composée de quatre personnes.
Christofer DaussionResponsable BI et plateforme data, Betclic
« Betclic était loin d’être avancé en termes de traitement analytique. Il y avait une équipe de Data science dans un coin, une équipe BI dans un autre, sans oublier des administrateurs de base de données de leur côté. Ces groupes communiquaient peu et il n’y avait pas de cohésion. Avec Nelly Chatue-Diop, la Chief Data Officer de Betclic, nous avons cherché à harmoniser analytique, data science et BI au sein d’un seul département », relate le responsable.
Depuis cette restructuration, Christofer Daussion s’occupe de définir l’architecture technique de la « plateforme data ». « Je cherche à répondre aux questions suivantes : comment va-t-on stocker la donnée ? Comment la récupère-t-on ? Comment les logiciels interagissent ensemble ? Je m’occupe également du data warehouse et de la construction d’un data lake », liste-t-il.
L’objectif consiste à obtenir des informations sur le nombre de paris, l’activité massive des parieurs et les résultats sportifs qui influent sur le chiffre d’affaires de la société.
« Nous voulons remettre la donnée au cœur de l’activité de Betclic, que toutes les décisions soient prises avec l’aide des données et non plus à l’instinct, ce qui était ancré dans l’ancien Betclic », assure Christofer Daussion.
Une approche hybride pour faciliter la migration vers le cloud
Cette vision se heurtait à la réalité du SI de l’entreprise qui ne répondait plus totalement aux besoins de cette dernière. Selon le responsable, l’architecture existante de Betclic a été construite sur un socle « full Microsoft ». « Toutes les applications étaient écrites en .Net. Pour la BI, c’était une base SQL server, des jobs d’alimentation SSIS (SQL Server Integration Services), des rapports quotidiens figés en PDF avec SSRS (SQL Server Reporting Services) et un cube SSAS (SQL Server Analysis Services) », relate-t-il.
L’équipe de Data science souhaitait moderniser cette architecture tout en réduisant la dépendance aux produits du géant du cloud. Betclic a donc choisi Tableau comme couche front-end. Concernant les pipelines de données, l’entreprise n’était pas certaine d’adopter un entrepôt de données estampillé Microsoft. Dès lors, le service SSI n’était plus forcément l’ETL le plus adapté.
« Nous avons observé les solutions disponibles sur le marché. Notre choix s’est rapidement limité aux propositions de deux gros éditeurs : Talend et Informatica. Nous avons apprécié l’approche hybride proposée par Talend ainsi que la gestion CI/CD », déclare Christofer Daussion.
Historiquement, l’architecture IT de Betclic est déployée sur site. L’entreprise souhaitait adopter le cloud. « Nous ne savions ni comment ni quand nous allions passer dans le cloud, mais nous voulions une solution qui nous en donne la possibilité ».
Fin 2018, Betclic a donc choisi Talend Cloud. En janvier 2019, le spécialiste du pari sportif a fait appel aux conseillers de l’éditeur pour configurer les briques associées à la plateforme. « Ce qui a pris le plus de temps, c’est la configuration de l’agent remote engine. Ensuite, nous avons mis nos studios en place, connecté nos dépôts GitHub, puis nous avons déployé les premiers traitements distribués », témoigne le responsable.
Christofer DaussionBetclic
L’ensemble des ordonnanceurs et la gestion de dépôt sont réalisés depuis des instances AWS opérées par Talend. Près de la base de données sur site, un agent, le remote engine s’occupe d’appliquer les traitements. « Cela nous permet d’avoir le meilleur des deux mondes. Il n’y a pas de transfert de données dans le cloud, mais les workloads sont bien gérés depuis AWS. Le jour où nous allons migrer totalement notre data warehouse sur site vers Snowflake, finalement, nous aurons juste à changer le connecteur, éteindre le remote engine local et tout s’exécutera dans le cloud », explique-t-il.
Les avantages d’un service managé
Talend Cloud n’est pas seulement utilisé pour gérer les traitements sur site. « Cela va au-delà du fait d’alimenter un lac de données. Talend nous permet aussi d’obtenir des alertes en quasi-temps réel sur les données transactionnelles présentes dans la base Betclic ». Certains traitements vérifient que les règlements liés à l’activité de Betclic soient bien respectés.
« Par exemple, si un joueur de moins de 18 ans cherche à s’inscrire, sa demande est automatiquement refusée, mais ne nous sommes pas à l’abri d’un bug. Ce bug sera alors signalé. D’autres surveillent les activités suspectes comme l’accès à la plateforme de paris par des joueurs déjà exclus », illustre le responsable.
Betclic se sert également de l’iPaaS pour récupérer ou échanger des données auprès de ses partenaires. « Au vu du nombre de connecteurs, nous pouvons nous brancher à pratiquement toutes les bases de données et les API, sans avoir à en développer nous-même », assure-t-il.
Dans un avenir proche, c’est-à-dire dès cette année, Betclic souhaite déployer un data lake S3 couplé à son data warehouse dans le cloud Snowflake. « Nous pousserons toutes nos données brutes dans des buckets. Dès que nous aurons besoin de données structurées ou semi-structurées, nous utiliserons Snowflake puisqu’il gère très facilement les fichiers au format JSON ».
Pour le moment, la gestion des données transactionnelles est effectuée depuis SQL Server. L’ancienne architecture n’a pas encore été décommissionnée, ce projet débutera en 2021. En revanche, une grande partie de ces traitements BI et analytiques sont effectués depuis Snowflake. L’équipe y a chargé un historique de données de 10 ans en une seule fois. « Auparavant, certains traitements sur les données de la veille prenaient jusqu’à 9 heures alors qu’avec la nouvelle architecture, il y a un délai de cinq minutes avant de voir le résultat des actions d’un joueur depuis nos tableaux de bord ».
Betclic a déjà passé le pas du cloud concernant la surveillance de l’activité sur ses sites web. Elle n’utilise pas des services comme Google analytics, l’entreprise a créé son propre outil. Les données à surveiller sont captées par différents SDK, injectées dans des buckets S3, puis un traitement les place dans Snowflake.
« Nous observons d’autres produits dans le but de remplacer SQL Server pour la gestion de l’offre de paris. Le but ce serait de passer sur du streaming pour actualiser les données brutes dans le data lake et faire la connexion avec l’entrepôt de données ».
L’équipe de data science souhaite automatiser la mise en production des jobs analytiques avec les outils CI/CD de Talend. « Habituellement, Talend propose une seule zone de disponibilité AWS. Nous sommes parmi les premiers à tester un système avec un master sur la zone Europe et un slave aux États-Unis. En cas de panne de la première, les traitements peuvent être basculés sur la deuxième », précise Christofer Daussion.
Un chantier conséquent
Betclic doit également gérer la montée en charge liée aux différents matchs et saisons sportives.
« Nous avons défini avec Talend un calendrier sportif qui permet de gérer des chargements de données à différentes fréquences et à différentes puissances. Ce traitement est automatisé pour s’adapter à l’utilisation de l’application de paris par les joueurs ». Par ailleurs, suivant le volume de données, les capacités de calcul sont ajustées afin de charger les informations en moins de cinq minutes. « En fin de match, il y a un afflux massif de données lié au nombre de paris. L’architecture monte automatiquement à l’échelle afin que le temps de traitement des jobs analytiques ne varie pas ».
Christofer DaussionBetclic
L’activité réduite, induite par la crise sanitaire en cours, est donc prise en compte : le même mécanisme doit permettre de baisser le coût associé au calcul. Toutefois, les projets IT et data science ne sont pas à l’arrêt. « Pour cela nous pouvons lancer des tests en production sans avoir de risque d’impacter les clients. D’un point de vue IT, nous ne sommes pas du tout dans un temps mort », affirme Christofer Daussion.
Le responsable étudie la possibilité de containeriser certains flux analytiques et de machine learning à l’aide d’Apache Airflow et AWS Fargate. Il s’agit pour l’instant d’une piste parmi d’autres.
L’équipe de data science souhaite s’appuyer sur cette architecture pour proposer des algorithmes aux clients. Ceux-ci pourront être destinés à la recommandation ou à la personnalisation des paris proposés à l’utilisateur de l’application mobile. « Un fan du PSG ne devrait pas voir la même page qu’un fan de l’OM. Nous voulons mieux connaître nos clients pour leur proposer la meilleure expérience de jeu possible », conclut notre interlocuteur.