Mister-Auto porte son Data Warehouse sur Amazon RedShift
Après avoir constitué un Data Warehouse sur MySQL, le cybermarchand de pièces automobiles à choisi de basculer vers Amazon Web Services. Une migration vers le Cloud grandement facilitée par la plateforme d'intégration Talend.
Marque créée en 2008, Mister-Auto est un poids lourds français de la vente en ligne de pièces automobiles. Comme beaucoup des leaders nationaux du E-Commerce, son système d'information s'est constitué sur de multiples briques Open-Source et de nombreux développements internes. Le Data Warehouse ne faisait pas exception.
Celui-ci était bâtit sur MySQL. La solution qui arrivait à ses limites pour un usage analytique. Yoann Boulch, analyste BI de Mister-Auto, estime « nous sommes une entreprise de E-Commerce avec de gros volumes de commandes à gérer au quotidien dans le domaine très complexe de la pièce détachée automobile. Nous comptons 5 millions de clients, avec 5 000 à 10 000 commandes par jour pour une moyenne de 400 000 références produit par pays. Si bien que lorsqu'on croise toutes les références possibles avec tous les modèles de voitures et tous les pays où nous livrons, on atteint rapidement plusieurs centaines de millions de lignes dans notre Data Warehouse. Si on croise ces lignes avec la disponibilité par heure ou par jour, on arrive très rapidement à devoir stocker plusieurs milliards de lignes ».
RedShift, un « Data warehouse as a Service » adapté aux besoins de Mister-Auto
Ce Data Warehouse, jusqu'alors alimenté via l'ETL de Talend était essentiellement utilisé autour des données financières de l'entreprise au moyen de l'outil Jedox afin d’en analyser la performance.
« Cette architecture présentait l'avantage d'être assez simple à mettre en œuvre, mais tous les services de l'entreprise étaient eux-aussi demandeurs d'analyses et de données pour piloter leur activité. C'est la raison pour laquelle nous avons pris la décision de basculer notre approche sur un environnement plus performant et capable de monter en puissance car nous allons acquérir de plus en plus de source de données externes »
L’équipe Mister-Auto va alors prendre la décision de basculer ce Data warehouse sur Amazon Web Services et plus particulièrement sur l'offre de « Datawarehouse as a service » de l'américain, RedShift.
« L'avantage est le temps de mise en route d’un nœud Redshift, extrêmement rapide. Ceci est lié à la nature SaaS de l’outil. Nous pourrons accroitre le volume de stockage sans difficultés et gérer la montée en charge. Du point de vue configuration et administration du data warehouse, l'utilisation conjointe de Talend et RedShift est très aisée et ne pose aucun problème. L'ensemble des composants et les connecteurs existaient déjà et se sont avérés très rapidement à mettre en œuvre. »
Du côté outils de restitution, la direction informatique de Mister-Auto a fait le choix de la solution Tableau Software, une solution qu’il juge performante pour créer des tableaux de bord dynamiques et qui disposait en outre déjà d'un connecteur vers Amazon RedShift.
Soixante-dix utilisateurs ont été déployés sur Tableau Server dans différents services de Mister-Auto. Deux cent rapports Tableau ont été développés à ce jour, tant pour la direction commerciale - qui suit les principales KPI d’activité de l'entreprise - que pour le pôle trafic qui suit les données Google Analytics directement dans l’outil de BI/Data Viz avec les coûts associés aux campagnes.
Talend, la tour de contrôle de la Data chez Mister-Auto
Le Data Warehouse de Mister-Auto est désormais alimenté par les données issues de diverses sources.
La source principale est la base de données des sites de vente en ligne, mais il est aussi alimenté avec des données de mesure d'audience collectées par Google Analytics.
En outre, le Data Warehouse est connecté à diverses API afin de rapatrier les tarifs des différents fournisseurs de pièces automobiles du site, des données relatives aux véhicules, des fichiers externes relative aux ventes de véhicules pays par pays, etc.
C'est essentiellement le module ETL de la suite Talend Data Integration qui est mis en œuvre par Mister-Auto. Le volet Data Quality est peu sollicité sachant que les données extraites de l'ERP développé en interne sont de bonne qualité et ne nécessitent pas de retraitement avant leur intégration.
« Peut-être un jour aurons-nous besoin de passer en version Big Data ou ESB, mais ce n'est pas le cas pour l'instant » explique Yoann Boulch. « L'ESB nous permettra de passer au temps réel sachant que le rythme d'intégration des données dans le Data Warehouse dépend aujourd'hui du domaine de chaque donnée. Dans certains cas les données sont mises à jour toutes les 10 minutes, notamment pour le suivi des promotions et leur impact en terme de chiffre d'affaires.Lla disponibilité des produits chez nos fournisseurs est aussi mise à jour toutes les 10 minutes. Tandis que les tableaux de bord et le reporting sont réalisés une fois par jour, pendant la nuit, pour une restitution à J+1 ».
Une architecture d’exploitation hybride
Si Mister-Auto exploite plusieurs nœuds d'exécution Talend sur ses serveurs internes, un premier nœud a été déployé sur Amazon Web Service.
« Ce nœud nous permet de récupérer le delta des données de notre production et de pousser les fichiers dans les différentes bases que nous avons créées dans RedShift. Tous les traitements appliqués à ces données sont réalisés sur Amazon Web Services et plus du tout sur nos propres serveurs. Je pense que prochainement nous devrons en mettre plusieurs en production dans AWS afin de pouvoir gérer les différentes fréquences de mise à jour des données. C’est très simple à mettre en œuvre. C’est l’affaire de quelques minutes. Il suffit de cliquer pour créer une instance EC2 pour déployer un nouveau nœud d’exécution et ajouter dans Talend ce nouveau serveur avec une clé Amazon ».
Cette architecture hybride est en production depuis le mois de février 2016.
Parmi les prochaines évolutions envisagées dans cette architecture analytique, Yoann Boulch estime qu'il va falloir multiplier les nœuds d’exécution Talend et aller de plus en plus vers le Big Data et le temps réel, probablement avec l’outil Amazon EMR.
Autre chantier en cours, la mise en place d'un Self-Service BI où les experts métiers pourront réaliser des analyses ad-hoc.