Analytique : Auchan Direct plonge dans le Data Lake
Le commerçant est passé de la logique de reporting à celle de diagnostic, avant de basculer réellement dans le Big Data. L’instigateur du projet explique ce virage vers la donnée non structurée. Il souligne l’importance de la DataViz et de la prise en compte des utilisateurs.
Filiale du groupe Auchan, le supermarché en ligne Auchan Direct réalise une livraison toutes les vingt secondes en Ile de France. Une masse de transactions déjà très importante à laquelle s’ajoutent celles des autres régions que couvre aujourd’hui le eCommerçant (Lyon, Marseille et Lille).
Pour répondre à la demande, Auchan Direct a mis en place à l’automne 2016 un entrepôt automatisé pour la préparation de ses commandes. « C’est une première en France dans le eCommerce alimentaire », se félicite Marc Rousseau, Head of Data. Une première qui génère des données.
Le Big Data tout seul ne crée pas de valeur
Côté client, le distributeur a également retravaillé son site web en profondeur. « On l’a refait en interne. Nous avons aussi fait le choix d’internaliser les compétences liées à la data », explique le responsable. Marc Rousseau s’est donné 18 mois pour monter une équipe dédiée dont « la mission est d’éclairer les collaborateurs » et in fine « améliorer l’expérience client ».
Conséquences de ces deux transformations ont modifiés les flux de données et ont créé un besoin de nouveaux traitements pour les rendre intelligibles (préparation, modélisation, interprétation) avec un nouvel outillage analytique.
En clair, Auchan Direct a plongé dans le Big Data. Avec un premier enseignement clef. « On s’est rendu compte qu’il était assez difficile de créer de la valeur avec le Big Data tout seul. Il faut d’autres choses autour ». A savoir de la BI et de l’analytique pour transformer la donnée en information, et l’information en action.
Dans ce cas précis, Auchan a choisi Qlik Sense. En grande partie parce que sa filiale s’appuyait historiquement – avant son virage Big Data - sur QlikView.
Ecce homo
Un des défis majeurs pour Marc Rousseau, qui confesse avoir connu par le passé « une espèce de frustration » sur le sujet, a été de dépasser « le rejet assez fréquent des métiers pour les insights et pour les nouveaux outils que peut amener une équipe Data ». Visiblement très imprégné de philosophie, de psychologie et de sciences sociales, le responsable a donc mené – en parallèle au projet technique – une réflexion approfondie sur les biais cognitifs qui expliqueraient ces réticences.
Manque d’ergonomie des outils, aversion au changement (effet dit « de gel » de personnes qui préfèrent rester coller à ce qu’ils font), impression de savoir déjà ce qu’il faut savoir pour prendre des décisions rationnelles (péché de confiance) sont autant de facteurs qu’il a fallu gérer par une politique d’accompagnement.
D’un point de vue technologique, le cheminement vers le Big Data de Auchan Direct a débuté au début 2016. « On a commencé assez simple avec un embryon de Dataware », un entrepôt de données sous PostgreSQL - « tout ce qu’il y a de plus classique » - avec 6 bases et « orientée clients ».
Concrétisée en 6 mois, cette plateforme qui tient sur un seul serveur pose toutefois problème. « Pour accéder à la donnée, il n’y avait pas d’outil de Dataviz. Il fallait utiliser un requêteur SQL ». Pas très ergonomique ni très Modern BI dirait le Gartner.
Et surtout pas du tout utilisé par le marketing qui avait pourtant demandé une nouvelle segmentation client. Marc Rousseau initie donc le déploiement d’un outil de DataViz (Qlik Sense) qui va tout changer puisque une fois en place – environ 4 mois plus tard – les métiers se sont mis à utiliser la fameuse Data.
« Une base de données et du SQL, ça s’adressait trop au système rationnel d’Homos Economicus », analyse avec le recul le responsable. Là où la BI en « libre-service » s’adresse à de « simples mortels » (sic) que nous sommes tous.
Quand le Data Warehouse fait plouf, arrive le Data Lake
Qlik Sense répond d’autant mieux au besoin que la solution se déploie rapidement, qu’elle produit simplement des rapports et que Marc Rousseau ne cherche pas à l’industrialiser (seules quelques dizaines de personnes dans les métiers auront à l’utiliser).
Dans le même temps, le Data Warehouse « est remis en position centrale » et redimensionné pour pourvoir donner une vision élargie de toutes les données de l’entreprise. En octobre 2016, la base comporte 40 tables, pour 500 millions de lignes. Le tout est hébergé sur deux serveurs.
A ce stade, Marc Rousseau pense qu’il a fini son travail, à savoir fournir de la donnée de manière « user friendly ».
Il se trompait.
Début 2016, Auchan Direct a connu un problème de disponibilité de ses produits. « Dans une vision Dataware, on récupère de la donnée pour un problème déjà identifié […]. Pour résoudre un nouveau problème, nous n’avions pas de données disponibles. Nous nous sommes aperçus que les données de stocks étaient présentes dans six briques différentes du SI… alors que nous on ne s’intéressait qu’à la disponibilité affichée sur le site Internet ».
Pour avoir une disponibilité réelle, il aurait fallu synchroniser le Data Warehouse avec les autres composantes du SI au moins une fois toutes les heures. Or Auchan Direct ne le synchronisait qu’une fois par jour. Trop peu pour fournir une expérience client satisfaisante.
L’idée émerge alors de passer de cette base structurée et au modèle de donnée clair, à un Data Lake, sans modèle de données pré-établi mais beaucoup plus flexible. C’est à ce moment précis, en octobre, qu’Auchan Direct a changé de dimension pour plonger réellement dans le Big Data.
En janvier 2017, soit trois mois seulement après la fin de la deuxième étape du projet, le distributeur termine de mettre en place un Datalake de 400 tables et de 20 milliards de ligne (« ce qui ne tient pas dans une base classique »), sur une infrastructure composée de 8 serveurs.
Data Lake : les bienfaits du désordre, si l’on est organisé
Alors qu’en 2016 il lui fallait deux jours minimum pour ajouter une table, en début 2017 il ne lui faut plus qu’une heure. « On est passé d’une phase où nous étions en mode reporting – on a un problème identifié en amont – à une phase de diagnostic ».
« C’est vraiment extrêmement puissant », analyse Marc Rousseau. Et comme Auchan Direct est en phase de transformation, « forcément, beaucoup de nos problèmes ne sont pas connus en avance ».
Toutes les données ne seront évidemment pas utilisées, « mais pour certaines, on sera certainement très contents de les retrouver ».
Mais se pose alors un problème de riche. Trop de données tue la donnée. La base est devenue infiniment plus flexible pour coller aux besoins analytiques des métiers. « En revanche, il faut les bonnes technos pour arriver à lire ce qu’il y a dans le Datalake ». Et surtout, il a fallu se pencher sur une vraie méthodologie pour s’assurer que la masse d’informations induite par le Big Data n’allait pas noyer les utilisateurs. Et au final, ne servir à rien.
Pour Marc Rousseau, l’analytique BIg Data est un terrain très propice au biais cognitif. C’est-à-dire aux interprétations partielles et aux conclusions hâtives. Pour « passer d’une démarche de diagnostic à une démarche d’amélioration », il a fallu modérer les demandes des métiers qui voulaient des applications avec le maximum de données, en pensant que les enseignements se feraient jour d’un coup de baguette magique.
« Mais il n’y a rien de magique dans tout cela. C’est bien la puissance qui permet de diagnostiquer les problèmes […] Mais avec une méthodologie très précise ».
Cockpits métiers
L’étape suivant (la quatrième) est en train d’être finalisée. Auchan Direct est en train de construire des « cockpits métiers », des tableaux de bords qui vont être différents des modélisations réalisées avec la Data Viz et utilisées pour les diagnostics.
L’idée derrière ces cockpits est de rendre la donnée véritablement (et rationnellement) opérationnelle en répondant à ces quatre questions : Quels objectifs visons-nous ? Est-ce qu’on y parvient ? Est-ce qu’on s’améliore ? Que faisons-nous pour nous améliorer ? « Ça a l’air simple comme ça… mais je vous encourage vivement à aller regarder si vos outils de Data Viz répondent bien à ces questions », invite Marc Rousseau.
Point final de ce projet de transition vers le Big Data, Auchan Direct désactivera son Data warehouse en juin.