Diffuser une culture de la « Data Science » aux métiers : l’exemple du Français Nexway
Le professionnel français du commerce en ligne a refondu l’infrastructure de ses sites avec des microservices, ce qui lui a permis d’avoir des Smart Data et de se lancer dans des projets de Machine Learning, en collaboration avec les métiers.
Sans être aussi gros qu’Amazon, le Français Nexway, professionnel du commerce en ligne depuis 1995, est très similaire avec celui-ci dans sa position de vente, ce qui fait qu’il collecte de nombreuses données potentiellement riches « d’insights ». Encore fallait-il savoir extraire des informations raffinées à partir des données brutes.
C’est la mission à laquelle s’est attelée le Data Scientist Yann Girard lorsqu’il rejoint la société en 2016. Trois ans plus tard, des utilisateurs métiers sont, eux-aussi, devenus des experts de l’analytique avancée.
95 % des données métiers de ses clients
Nexway (180 personnes, 186,6 millions € de CA) est un intermédiaire, en marque blanche, qui permet à ses clients (historiquement des éditeurs d’antivirus et de jeux vidéo) de vendre leurs logiciels. Sa promesse B2B2C, dans les années 2000, était de faire de l’e-commerce, hors logistique, sur des produits numériques. « Nexway a permis à AVAST, ESET ou Kaspersky d’arrêter de passer par des CD gravés et de commercialiser des clefs d’activation produits », résume Yann Girard. « Nexway s’occupe du téléchargement, de la TVA, des conversions de devises, du SAV, etc. Nous sommes les co-contractants légaux de la vente ».
Aujourd’hui, en plus de s’occuper des logiciels, Nexway traite des produits physiques (comme avec Schlumberger), les services et les produits semi-physiques – comme les renouvellements des packs FNAC, y compris ceux achetés initialement en boîtes dans un magasin.
D’un point de vue « données », cela signifie que Nexway possède l’essentiel des informations commerciales de ses clients. « On a 95 % des données de leur business », confirme le Data Scientist sur la scène de Egg Paris 2019 (l’évènement clients de Dataiku).
Microservices pour une Smart Data
Lorsqu’il arrive chez Nexway en 2016, la donnée n’est cependant pas encore complètement accessible. Il existe bien un Data warehouse, lancé un an plus tôt, qui centralise l’historique des 10 à 20 000 commandes par jour. Mais il n’est pas encore en libre accès direct.
La base était chapeautée par un outil BI, Pentaho, qui, lui, était accessible aux analystes métiers. « De quoi avoir une vision agrégée, mais difficile d’avoir une vision plus fine », se souvient Yann Girard. Aujourd’hui, le data warehouse – sur GCP – est la source première de ses analyses qu’il conçoit avec Dataiku.
En 2016, Nexway décide également de refondre ses différentes plateformes de vente – parfois une par client – pour tirer parti des microservices.
D’un point de vue « Data », cette nouvelle architecture implique que chaque service possède sa propre base et communique via des « events », ce qui permet une approche très structurée de la donnée. Dit autrement : de récupérer une donnée structurée et contextualisée (la Smart Data) avant de l’amalgamer.
« Par exemple, si vous avez un panier et que vous cliquez sur OK ; le service Panier dira “j’ai un panier avec ces produits-là. Il y a un abonnement. Et (s’il a coché la case), le client accepte la newsletter”. Différents services sont alors impliqués par l’event – comme le service du Consentement Utilisateurs qui enregistre l’information pour des campagnes marketing. Le service Abonnement fait de même pour des tentatives de paiement futures », illustre Yann Girard. « Tout s’imbrique comme dans une ruche. Les events circulent et sont très bien structurés ».
La vision derrière ce projet était d’avoir « du Big Data et de la Smart Data ».
Une phase de Discovery en attendant la nouvelle plateforme
La plateforme est aujourd’hui opérationnelle. Mais à l’époque, elle ne l’est pas avant au moins un an. En même temps qu’il participe à ce chantier, Yann Girard décide donc d’entamer un travail de « Discovery ».
« J’ai regardé les données de l’ancienne plateforme pour voir ce que l’on pouvait déjà faire avec », raconte-t-il.
L’expert en profite au passage pour faire le tour des métiers (CSM, Marketing, analystes d’audience, etc.), pour comprendre les différentes activités, leurs besoins en analyse et toucher du doigt ce que pourrait leur apporter, concrètement, le Machine Learning. « Mon travail est là : c’est essayer de fabriquer des choses qui font que les experts opérationnels soient capables de faire leurs métiers correctement, peut être même pour la première fois », explique Yann Girard. Pour lui, un bon Data Scientist est clairement un Data Scientist qui comprend les métiers en profondeur.
Les sujets possibles qui émergent alors sont nombreux – et somme toute classiques sur le papier – comme le forecasting, la recommandation de produits, la segmentation plus fine des clients, évaluer la sensibilité d’un segment à un discount, à un upgrade, à un downgrade (« baisser votre abonnement si vous êtes en sous-consommation ») ou approfondir la connaissance client (qui sont les personnes qui suivent assidûment une marque – newsletters ouvertes, etc. – mais qui n’achètent jamais).
« Le e-business reste un sujet simple [comparé à des projets d’IA autonome ou généraliste]. On y traite des données structurées, des données métiers, avec des impacts immédiats » modère modestement l’expert. « Nous en sommes encore au début de l’intelligence que l’on peut injecter là-dedans ». Encore plus en 2016.
Résultat connexe de sa phase de Discovery, Yann Girard forme en interne une « équipe data » avec un ingénieur, mais aussi des personnes issues des métiers qui montrent une certaine sensibilité à la donnée. « Je les ai par exemple formés au Python. Les métiers ne parlent désormais plus de “corréler des données”, mais de “join [N.D.R. : à l’anglaise] de données” ».
En plus de structurer ses premiers pipelines ML chez Nexway (lire ci-après), Dataiku a aidé Yann Girard à diffuser la culture des données et à faire monter les métiers en compétences. « Grâce à la dimension graphique de l’outil, ils regardaient les briques [du workflow analytique qu’il faisait], puis petit à petit ils ont décortiqué jusqu’aux briques en Python ».
Structurer la Data Science
Pour mener à bien ses missions, Yann Girard ressent rapidement la nécessité de structurer son travail. « J’ai eu besoin d’un outil pour structurer mon code, et qui puisse suivre pour la mise en production », confirme-t-il.
Très vite son choix se porte sur le Français Dataiku. « La solution avait bonne réputation. Je connaissais des gens de chez eux rencontrés dans mon ancienne activité de consultant. J’ai essayé trois quatre concurrents, mais on voyait que Dataiku était pensé par des Data Scientists avec une bonne vision produit et un bon développeur ». Qui plus est, l’éditeur propose une version gratuite.
« J’ai ainsi pu structurer les étapes : une préparation de données est vite faite, puis le code Python, puis un lien vers le notebook ; on met la recette dans un “petit flow” puis on le garde [pour le réutiliser] », se réjouit Yann Girard. « Ensuite, petit à petit, j’ai découvert d’autres fonctionnalités : le contrôle par API, la “templatisation” de variables, les checks, les metrics, ou l’intégration à Kubernetes… qui fait baver ! (sic) », s’enthousiasme-t-il.
En route pour l’IA
En 2018, la plateforme de microservice est finalisée (même s’il reste des clients sur d’anciennes implémentations). Nexway ouvre son Data Warehouse aux équipes analytiques. Et le projet Data passe à la vitesse supérieure avec plusieurs applications d’analytique avancée.
Un gros effort est fait sur la rétention des abonnements. « C’est là où il est le plus facile d’identifier les cas extrêmes ». Les premiers gains sont très variables : de 3 % à 20 % d’amélioration en fonction des clients et de la maturité du marché concerné.
« Je dirais qu’il existe quatre grands types de clients : M. Normal (qui en fait n’existe pas), le Churner (qui va partir), le Lagger (qui met 4 mois à renouveler son abonnement) et M. Loyal (qui ne changera jamais de fournisseur). Nexway a commencé sur les utilitaires de sécurité. Sur ce marché, naturellement, c’est-à-dire sans IA, la tendance est à la contraction autour de l’audience Loyale. L’IA peut aider à réduire le churn et améliorer ainsi la rétention. On dit souvent que plus le marché est jeune, plus l’IA est forte. C’est vrai. Mais sur un marché mature, on peut aussi monter en puissance pour séduire les quelques personnes qui ne sont pas attachées à la marque et/ou avec une faible sensibilité produits », souligne Yann Girard. « Et année après année, mathématiquement, ces quelques pour-cent créent un effet boule de neige ».
L’équipe met aussi beaucoup en regard les données d’abonnement avec les politiques de prix pour en évaluer les effets (acquisition moins chère, plus de rétention, etc.) grâce au Machine Learning, « parce que le système en a vu beaucoup et depuis longtemps, dans beaucoup de secteurs [logiciels] différents ».
Il ne s’agit néanmoins pas de bouter l’humain hors de la boucle. Au final, c’est toujours l’expert métier qui dit ce qui lui semble pertinent, mais en étant beaucoup plus Data-driven. « Nous fabriquons une expérience améliorée (enhanced) pour les utilisateurs métiers […]. Toutes les équipes opérationnelles avaient accès [à la donnée], mais nous, nous leur faisons une peinture cohérente qui leur permet de sélectionner ce qui aura le plus de sens pour eux. Le métier peut par exemple dire qu’il veut améliorer tel metric (un taux de renouvellement) en agissant sur tel facteur (le prix). Ensuite il choisit une portion de trafic, il fait le test de sa politique [en live] et il peut en voir les effets – la machine dans le même temps lui fait des recommandations dans les dashboards où chaque opération est un filtre possible. »
Best Practices, erreurs et enseignements
Ceci étant, avec le recul, Yann Girard constate que même un projet de Data Science comme celui-ci, qui suscite l’intérêt, n’est pas un long fleuve tranquille. « Il faut respecter les bonnes pratiques », prévient-il. Or, il arrive que les conseils ne soient pas toujours écoutés, souvent par excès d’enthousiasme.
« Un bon exemple de cela c’est quand on fait du ML, mais sans mettre en place de reporting. Ou de prendre tout le trafic sans faire d’A/B Testing [qui permet de tester deux versions d'un même logiciel en parallèle. N.D.L.R.]». Du coup, les évaluations des recommandations de l’algorithme et l’itération ne sont plus possibles. « C’est comme les enfants, il faut qu’ils mettent les doigts dans la prise pour se rendre compte de ce que ça fait », plaisante Yann Girard.
Mais le Data Scientist ne jette pas la pierre aux métiers. Au contraire, il concède également des erreurs. Par exemple, pour prouver rapidement la valeur du ML, et pour ne pas prendre de ressources IT, Yann Girard a débuté son projet « Data » sans impliquer cette dernière (qui avait fort à faire avec la refonte vers les microservices).
« D’où Dataiku pour la structuration du code ou l’intégration Github. Mais ce que j’ai vu trop tard, c’est qu’il faut aussi respecter toutes les “best practices” de l’intégration continue et du versioning. L’IT le sait et a l’expérience de cela. Moi je m’y suis mis tard, 8 mois après, ce qui a créé un schisme entre le code mutualisé – facile à maintenir – et le vieux code, qui est sur une instance à part de Dataiku, isolé, encore sous DSS 4, et que l’on va certainement fermer en 2020 ».
La leçon à en tirer est qu’il faut, dès le départ, penser à l’industrialisation.
Vers le prescriptif
Aujourd’hui ces difficultés semblent surmontées. Quant au projet Data, il est sur le point de passer de nouvelles étapes. « J’ai plein d’idées » confie Yann Girard.
La première (phase 2 du projet) sera de suggérer des opérations clefs en main (actions sur Facebook, action sur le prix). La suivante (phase 3) sera de lancer plusieurs opérations issues de conclusions d’algorithmes de ML, en parallèle sur un même segment d’audience. « L’opération qui fonctionnera le mieux prendra le relais des autres ».
Là encore le but n’est pas d’avoir une IA autonome, mais bien de permettre aux opérationnels de mieux tester leurs différentes hypothèses et de les mettre en œuvre plus facilement. « Pour que le métier puisse enfin faire ce qu’il a envie de faire depuis toujours : de la stratégie », conclut Yann Girard.