jehuty18 - Fotolia
Comment SEGA Europe s’est pris au jeu de la data science
LeMagIT a pu discuter de l’aventure de SEGA Europe avec deux membres de son équipe de data science. La plateforme d’ingestion et d’analyse de données échafaudée en 2015 est devenue un outil clé pour les responsables commerciaux et les studios de développement chapeautés par la division.
Pour beaucoup, la marque SEGA renvoie aux années 1990, à un âge d’or du jeu vidéo. Aujourd’hui, l’entreprise d’origine nipponne ne fabrique plus de consoles de salon, mais édite et développe des titres vidéoludiques (entre autres) tout en conservant sa structure si particulière. Si bien que chacune de ces divisions peut être considérée comme des entités séparées, tenant chacune un rôle à part entière.
Dans cet article, nous nous intéressons plus spécifiquement à SEGA Europe. Cette division est présentée comme « le bras armé » de la distribution des jeux vidéo estampillés SEGA sur consoles, PC et mobiles dans la région EMEA. Installée à Londres, cette entité tient également le rôle de référent auprès des nombreux studios de développement européens ou non, membres du groupe.
Parmi ceux-ci, Creative Assembly, Sport Interactive, SEGA Hardlight et Two Point Studios sont basés au Royaume-Uni, tandis qu’Amplitude Studios est établi à Paris et Relic Entertainment, à Vancouver (l’exception à la règle). Ils réalisent des franchises bien connues des « gamers » PC dont Total War, Football Manager, Endless, Two Point Hospital ou encore Company of Heroes.
Le secteur du jeu vidéo a déjà subi une transformation numérique profonde. Avant de devenir un marché imposant dont le chiffre d’affaires 2020 est estimé entre 130 et 160 milliards de dollars suivant les analystes (5,31 milliards d’euros en France selon le SELL), ses acteurs ont dû s’adapter à un mode de distribution désormais concentré sur la vente de logiciels « dématérialisés ». Il y a dix ans, les joueurs achetaient pour la plupart des softwares sur support physique. Sur l’année 2018, la vente de jeux dématérialisés représentait 78,7 % du chiffre d’affaires du marché vidéoludique français, selon une étude du CNC publié en 2019.
Cette tendance intime de nouvelles approches commerciales. Ces logiciels dématérialisés sont majoritairement distribués par les fabricants Nintendo, Microsoft, Sony sur console, depuis Android et iOS sur mobile, ainsi que via Steam, Epic Games Store ou encore GOG (Good Old Games) sur PC. Cela change le rapport de force entre les éditeurs, les studios et ces acteurs tiers qui ont la main sur cette forme de distribution.
Cela a également des conséquences sur les cycles de développement des jeux. Comme la distribution physique n’a pas disparu, les studios doivent souvent fournir une copie « Gold », une version stable du logiciel qui sera chargée sur des DVD, des Blu-Ray ou des cartouches.
Cependant, la dématérialisation a petit à petit instauré un nouveau standard : des mises à jour quasi continuelles. Si l’industrie IT est habituée à ce phénomène, seul le secteur du jeu vidéo en ligne était réellement concerné, principalement pour le maintien et le support des serveurs (et pour l’ajout de contenus dans les MMO – pour « Massively Multiplayer Online »). Désormais, tout jeu peut virtuellement bénéficier d’une durée de vie infinie et être supporté, amélioré pendant trois, cinq, voire plus de dix ans dans certains cas. Cela permet également de corriger rapidement les bugs bloquants, les erreurs ou le contenu qui ne serait pas apprécié par les joueurs.
SEGA Europe est parfaitement au fait de ce contexte. Ces derniers titres en date ont séduit plus de 30 millions de joueurs.
La data, « c’est plus fort que toi »
C’est d’ailleurs ces modifications profondes qui ont graduellement imposé l’analytique et l’intelligence artificielle comme nouvelles techniques pour enrichir ses processus.
Chez SEGA Europe, cette expérience analytique a commencé il y a six ans, selon Felix Baker, responsable des services data de SEGA Europe. Les dirigeants de la division et de Sport Interactive, en charge du développement de la franchise Football Manager – un jeu de gestion consacré au ballon rond – souhaitaient connaître les raisons des contre-performances du titre dans certains pays.
« À ce moment-là, il y avait une réelle volonté d’augmenter les performances de Football Manager dans certaines régions, notamment en Allemagne. Donc, ils étaient vraiment intéressés de voir à quoi ressemblait la base de joueurs en Allemagne et quelle était la durée des sessions et comment ils progressaient dans le jeu par rapport aux autres joueurs, mais ils n’avaient pas les moyens de leurs ambitions », se rappelle Felix Baker.
À l’époque l’équipe de data science de SEGA Europe était composée de deux membres. Ceux-ci ont commencé à développer et à déployer des ancres dans le code du jeu et à construire des pipelines de streaming de données sur AWS « en combinant Kinesis et des blocs de stockage S3, et enfin Amazon Redshift ». « Et comme il n’y avait pas beaucoup de ressources allouées, nous avons mis en place un ou deux événements dans Football Manager 2017 (commercialisé en 2016) qui indiquaient quand le joueur lançait le jeu et quand il mettait fin à sa partie », raconte Felix Baker. « Ce pipeline très brut était sujet à des erreurs – nous pouvions manquer des événements – et n’était pas particulièrement bien conçu. Il n’était pas très fiable, mais il a fait son office », ajoute-t-il.
Selon le responsable, même si ce pipeline reposait fortement sur des batchs incluant peu de types d’information « de sorte que nous ne voyions les données que quelques heures après qu’elles soient produites », cette expérience a conduit à la construction d’une architecture capable de supporter la visualisation des nouvelles données « toutes les minutes ». Il s’agit des éléments de base de la plateforme de data science Prism de SEGA Europe.
L’équipe de data science de SEGA Europe et celle de Sport Interactive ont enrichi le contenu des ancres. « Si techniquement c’était basique, le projet a suscité beaucoup d’attention en interne. Les développeurs et responsables commerciaux appréciaient les informations que nous arrivions à obtenir avec deux ancres. Les questions portaient sur le type de KPI que nous pouvions tirer du jeu, par exemple le taux d’attrition, de rétention, l’origine géographique des joueurs, ou encore les capacités techniques de leur ordinateur », liste Felix Baker.
Le projet connaît un rapide engouement. Il ne s’agissait plus de collecter et visualiser les données d’un jeu, mais de dix, puis vingt et enfin plus de 80 titres vidéoludiques distribués en Europe aujourd’hui.
« Ainsi, l’équipe s’est agrandie et le département s’est développé au cours des trois ou quatre années suivantes, jusqu’à ce que nous ayons sept personnes spécialisées dans la data science au siège social. Nous collectons maintenant beaucoup d’informations », ajoute-t-il.
Felix Baker Responsable, services data, SEGA Europe
« Nous recueillons plus de 600 types d’événements différents en provenance de tous les jeux distribués par SEGA Europe. Nous administrons environ 10 000 événements chaque seconde depuis nos pipelines. Nous collectons pas moins de trois cents milliards d’événements chaque année ».
La plateforme Prism est désormais employée par plus de 20 analystes et data scientists, contre deux en 2016.
Si la popularité des pipelines Kinesis a demandé à l’équipe de Felix Baker de jouer les « pompiers » dans un premier temps, leur architecture n’a pas foncièrement évolué. « Nous y avons seulement insufflé de la robustesse. Quand les données quittent un jeu, elles sont dirigées vers un point de terminaison. En arrière-plan, un certain nombre d’instances EC2 traite les données quand elles arrivent. Cette partie-là n’a pas vraiment changé depuis que nous avons commencé. Nous avons surtout formé une équipe de développeurs Java qui maintiennent la base de code nécessaire afin de gérer les erreurs de données ».
Un répartiteur de charge permet d’adapter les ressources à la hausse ou à la baisse. Par ailleurs, les ingénieurs observent les données au comportement étrange et limitent le volume en provenance des adresses IP.
Une nouvelle plateforme de data science pour parfaire Prism
En revanche, les traitements BI, analytiques et de machine learning ont évolué. Début 2021, les ingénieurs et les data scientists de SEGA Europe ont remplacé S3 et Amazon Redshift par Databricks après un POC « convaincant » au dernier trimestre 2020.
« Dans le cadre de notre veille technologique, nous avons participé à plusieurs salons consacrés au Big Data à Londres et dans ses environs », relate Stanley Wang, data scientist chez SEGA Europe. « C’est comme cela que nous avons découvert Databricks. Mais nous avons réalisé des POC sur plusieurs solutions. À l’époque, il était difficile pour moi de traiter nos données, car elles étaient stockées sur différentes plateformes et architectures. Nous avions des choses stockées sur S3, sur Redshift et d’autres étaient placés sur Microsoft Azure », ajoute-t-il.
En effet en plus des données en provenance des jeux, les studios veulent accéder aux données commerciales et marketing. « L’un des plus gros casse-tête était de gérer l’ingestion de toutes ces sources de données en un seul endroit afin que nous puissions les utiliser pour des projets de ML », déclare Stanley Wang. « Avant cela, j’employais une version locale de notebooks Jupyter sur mon ordinateur et je devais importer manuellement des données en provenance de différentes sources, les miennes, celles stockées sur le cloud ou encore celles réclamées aux équipes des studios. C’était juste trop ».
Databricks promettait de répondre à ce besoin de centralisation, de rationalisation d’ingestion de données et d’exécution des modèles. « Par exemple, nous avons essayé Snowflake, qui est un très bon data warehouse, mais quand nous l’avons testé, il n’avait pas des capacités d’ingestion suffisantes pour nos besoins, et le fait que Databricks embarque cet environnement de gestion de notebooks ML était un argument de poids pour nous », complète Felix Baker.
Mais le déploiement de Databricks ne s’est pas fait en un jour. « Nous avons travaillé en étroite collaboration avec les solutions architects de Databricks pendant plusieurs mois pour étendre la plateforme de manière efficace. Nous n’aurions pas pu le faire sans leur expertise et sans l’aide des ingénieurs de Databricks. Notre équipe de développement avait un niveau de connaissance correct en Spark, mais pas suffisant pour assurer la mise en production », affirme Felix Baker.
Les ingénieurs de Databricks ont ainsi mis sur pied le « squelette » de pipelines d’ingestion que l’équipe de data science de SEGA Europe maintient désormais elle-même.
Une fois la plateforme installée, Stanley Wang mentionne le fait que les équipes ont rapidement apprécié la possibilité de manipuler le même projet, voire le même notebook. « Nous pouvons utiliser différents langages en même temps et travailler presque simultanément. Donc non seulement cela signifie que nous pouvons collaborer davantage avec notre propre équipe, mais nous pouvons aussi montrer de manière interactive notre travail à d’autres équipes, ou d’autres studios, et leur partager les mêmes notebooks, qu’ils peuvent consulter en même temps que nous », assure le data scientist..
Pour Felix Baker, les avantages du découplage entre stockage et calcul se sont rapidement fait sentir « Par le passé, l’utilisation d’un seul entrepôt comme Redshift nous posait vraiment problème. Quand vous avez cinq ou six studios différents qui accèdent à cet entrepôt simultanément, c’est très difficile de distribuer les coûts associés. Il n’y a aucun moyen de calculer avec précision l’emploi de l’entrepôt par les différents studios », déplore le responsable. « Aussi nous avions des goulets d’étranglement quand trois studios tentaient de faire des requêtes analytiques sur une même table Redshift, en même temps alors qu’un quatrième avait déjà lancé un job d’une durée de dix heures, bloquant son utilisation ».
Selon le responsable, Databricks résout ce problème tout en améliorant la latence du streaming de données. « Avec l’architecture précédente, nous arrivions à récolter les données toutes les demi-heures, au mieux. Avec Databricks nous pouvons les collecter toutes les minutes », vante Felix Baker.
Stanley Wang et Felix Baker font partie de l’équipe du support IA et analytique chez SEGA Europe. Désormais, chaque studio dispose de sa propre équipe de data science. Ils administrent eux-mêmes les bases de données et les tables liées à leurs produits. « S’ils ont besoin d’aller plus loin dans l’analyse, par exemple pour mieux comprendre les joueurs, ils peuvent faire appel à nous et nous allons les aider à développer un PoC qui doit répondre à leurs questions et servir de cadre qu’ils pourront modifier pour l’implémentation. Comme ça, nous pouvons passer aux prochains projets, parce que notre équipe est encore petite », explique Stanley Wang.
De nombreux cas d’usage en place et à venir
Les cas d’usage analytiques et IA sont très variés. Les deux experts interrogés mettent en avant un projet de machine learning pour classifier les types de joueurs de Two Point Hospital (un jeu de gestion d’hôpital), ce qui a permis de mettre en lumière des styles de jeu « insoupçonnés ». De manière générale, l’analyse du comportement des joueurs est très demandée par les studios.
Un autre cas d’usage vise à retranscrire les statistiques importantes d’un jeu en même temps qu’un streamer diffuse sa partie sur la plateforme Twitch. Les informations concernant l’assiduité des joueurs sont analysées pour planifier une campagne d’emailing, afin de les inciter à reprendre leur partie ou leur présenter du nouveau contenu.
« Actuellement, des mises à jour sont publiées presque chaque semaine pour les jeux. Il est donc plus important que jamais de comprendre ce que les joueurs souhaitent vraiment », affirme Felix Baker. « Nous pouvons planifier des mises à jour non plus en fonction de ce que nous pensons être la volonté des joueurs, mais en nous basant sur des retours d’information vérifiables », ajoute Stanley Wang.
Stanley WangData scientist, SEGA Europe
Par exemple, les développeurs de Football Manager ont modifié le tutoriel et l’interface de leur titre parce que les données montraient que certains joueurs (principalement les nouveaux venus) n’arrivaient pas à se faire à l’UI particulièrement touffue de ce jeu pointu. Cela permettrait donc de rationaliser les coûts de développement, mais également de sélectionner les bons contenus, par exemple les licences des clubs de football (logo, maillot et sponsors) à retranscrire dans un tel jeu.
Plus prosaïquement, les données en provenance des distributeurs (Nintendo, Sony, Microsoft, Steam, etc.) servent à réaliser les prévisions de vente. Là encore, l’équipe entend profiter de sa plateforme fraîchement déployée. « Nous commençons à utiliser la data science pour unifier notre manière d’effectuer des prévisions financières », indique Stanley Wang. « Nous créons une base de référence commune de sorte que d’autres équipes peuvent ajouter des filtres ou des modèles de machine learning supplémentaires liés à une promotion ou à une situation particulière, comme le confinement. In fine, toutes les équipes pourront bénéficier des mêmes informations et y appliquer des analyses différentes », anticipe-t-il.
Selon nos deux interlocuteurs SEGA Europe et ses studios disposent d’une manne de données financières, marketing et en provenance des gameplay. Mais l’entité ne s’est pas encore pleinement penchée sur l’analyse des informations en provenance des réseaux sociaux. « Les tendances sur les réseaux sociaux peuvent vraiment être importantes et avoir une grande influence sur les données qui nous parviennent », affirme Stanley Wang. Plus tôt dans la conversation, Felix Baker évoquait la réception de données étranges autour d’un jeu de gestion de courses automobiles. Ce n’est qu’après avoir consulté les réseaux sociaux que les analystes ont compris. Les joueurs s’étaient lancé le défi de terminer le jeu en sélectionnant l’écurie la moins bien dotée.
« Nous aimerions également comprendre l’engouement autour des jeux annoncés, mais qui ne sont pas encore commercialisés. Cela implique de réaliser des analyses de sentiment en s’appuyant sur les propos des journalistes, les forums, et différentes sources de commentaires », affirme Stanley Wang. Cette même technique de NLP, complexe à mettre en place, sera utilisée pour évaluer les critiques des joueurs et les retours après une mise à jour.