Le site de jeux en ligne King.com passe à l’analytique Big Data avec Hadoop
King.com a choisi de s’équiper d’un environnement Hadoop pour analyser au plus près les comportements des joueurs et gagner en réactivité sur sa plate-forme.
Le site de jeu en ligne gratuit, King.com, basé en Suède et présent en France, a revu son architecture de données afin d’adresser la problématique de gestion des données en volume, en provenance pour la plus grande partie de Facebook.
Fondée en 2003, la société se présente comme le plus important site de jeux occasionnels et sociaux dans le monde, proposant notamment des tournois par catégories (puzzle, stratégie, action, cartes ainsi que jeux sportifs). Ces jeux, qui comprennent Bubble Witch Saga et Candy Crush, ont attiré plus de 60 millions d’utilisateurs abonnés, jouant, en tout, plus de 5 milliards de fois par mois.
King.com a plus de 150 jeux dans son catalogue, tous gratuits. Il génère des revenus via la vente de produits et services dits « in-game », comme des vies supplémentaires ou des boosters, ou encore via la publicité.
Mats-Olov Eriksson, directeur de l’entrepôt de données du groupe, affirme avoir travaillé sans technologie de Big Data jusqu’alors, mais, face à l’augmentation du volume de données générées par les jeux sur Facebook, la base de données MySQL s’est retrouvée trop étriquée. Elle était performante pour un million d’utilisateurs par jour mais King.com doit gérer un flot de visiteurs 10 fois plus important, à la fin 2012.
Et c’était sans compter avec le besoin de rapidité. « Si vous disposez d’un environnement de production reposant sur MySQL, vous devez attendre trop longtemps. Même ajouter une simple colonne prend du temps », ajoute-t-il.
Développer un entrepôt de données Hadoop
Eriksson dispose d’un solide background en analytique et en architecture de données dans des environnements en ligne, pour les secteurs du marketing numérique ou des jeux en lige. Il est responsable du stockage et du traitement des données pour King.com ainsi que de la maintenance du système, avec pour mission d’optimiser l’analytique. Son équipe de 6 développeurs, qui devrait s’étoffer de 5 autres membres dans les mois qui arrivent, développe actuellement un entrepôt de données Hadoop.
Eriksson se définit lui-même comme un défenseur de l’Open Source et préfère une approche de l’entrepôt de données liée aux méta-donnée. Selon lui, il s’agit «d’enregistrer des données dans une méthode moins structurée afin de pouvoir tracer davantage d’interactions utilisateurs (de toute forme) avec le jeux. »
Après plusieurs expérimentations, l’équipe a déployé une distribution Cloudera en 2012. La société affirme que cela lui permet d’avoir de la visibilité sur les modèles d’usages des jeux et sur les préférences des joueurs, ainsi que sur leurs comportements (lorsqu’ils sont par exemple coincés à un niveau spécifique). « Nous observons les taux d’échec par niveau, et quels niveaux sont les plus difficiles - mais de façon positive », commente-t-il.
Une approche agile de l’analytique
L’équipe dédiée aux questions analytiques utilise une grande variété d’outils. QlikView comme outil de reporting, Apache Hive pour effectuer les requêtes sur les données et R le langage de programmation Open Source pour les statistiques. Elle s’appuie également sur des applications statistiques comme celle des SAAS ou SPSS d’IBM. « Il existe une valeur évidente à permettre aux personnes d’expérimenter. Sur le court terme, cela n’est certes pas très efficace, mais si vous mettez en place cet environnement ouvert et créatif, il est plus facile d’attirer de vrais talents, qui seront alors capables de lui donner de la valeur. Ils peuvent tester de nouveaux outils, et cela contribue à notre réussite », soutient Eriksson.
« Cloudera est une partie de l’ensemble qui nous offre un avantage concurrentiel. Nous disposons d’un système très agile lorsqu’il s’agit de suivre nos utilisateurs. Nous parvenons à attirer les joueurs grâce à des dépenses en marketing, nous devons donc connaître le retour sur investissement en termes de marketing. Nous devons recueillir tout ce que nous pouvons. Sans cela, nous n’aurions pas l’ambition d’investir et du coup, la croissance ralentirait. Nous serions comme aveugles », ajoute-t-il.
Il prévoit également d’utiliser la technologie de requêtes en temps réel de Cloudera, Impala, d’ici à la fin de l’année, mais reste encore sceptique quant à cette notion de temps réel. « Je ne suis pas un grand fan de ce terme, mais toutefois, nous allons y gagner à alimenter notre entrepôt de données en quasi temps réel. D’un point de vue utilisateur, le gain sera également notable. Si dans une autre mesure, un problème est détecté sur l'une des fonctions d’un jeu, nous pouvons nous adapter plus rapidement ».
Il reste également très prudent quant à l'engouement qui entoure le mouvement « data science ». « Il est dommage que tout le monde ne parle que de data science, comme s’il ne d’agissait que de la seule partie « sexy » du travail sur les données. La maintenance est tout aussi intéressante mais est également plus importante - c’est là que tout se joue », souligne-t-il. « Dans les secteurs très consommateurs de données, nous avons besoin de davantage d’architectes qui s’intéressent à faciliter la vie d’autres personnes. Aujourd’hui, tout le monde veut devenir statisticien. Je rêverai de voir des personnes davantage intéressées par cette approche « facilitateur ». »
Traduit de l’anglais par la rédaction