Photobox consolide et analyse ses données avec AWS RedShift
Le spécialiste du tirage et d’impression de photos a troqué son entrepôt de données et ses outils de BI Oracle pour un tandem AWS RedShift et QlikView. Coût et scalabilité ont motivé la société.
Avec plus de 7 millions de clients actifs dans le monde et une stratégie de conquête du marché acerbe, la société Photobox, dont le modèle repose sur le développement et l’impression en ligne de photos multi-supports, doit manipuler d’importants volumes de données. La société dispose d’un site Internet qui permet aux utilisateurs de charger leurs photos, puis de commander un tirage classique, ou une impression sur plusieurs typologies de formats, que ce soit des livres, des décors personnalisés, des coussins, des cartes et mêmes des produits alimentaires.
Pendant les pics saisonniers, en décembre, la société doit ainsi être capables de gérer jusqu’à 7 millions de photos téléchargées en une journée et assurer, dans la continuité, la production de 100 000 commandes envoyées dans la journée. La société dispose de 5 usines de production. « Photobox fonctionne dans un mode complétement intégré, et produit de façon autonome entre 70 et 80% de ses réalisations. Seuls quelques produits exotiques sont externalisés comme les impressions à insérer sur des produits alimentaires, par exemple », commente Maxime Mezin, Group data et Photo Science director chez Photobox, dans un entretien avec la rédaction. En frontal, un portail Internet, pour recevoir les commandes clients. En back-Office, une multitude de données clients, logistique, opérationnelles et de production, très faiblement voire pas du tout interconnectées. La société a décidé de consolider ses données et d’opter pour une démarche d’analyse multi-sources, pour améliorer ses activités et le rendu auprès de ses clients.
Arrivé chez PhotoBox il y a 3 ans pour s’occuper des activités de BI et du CRM, Maxime a la charge des activités de BI et du CRM et de gérer les entrepôts de données, les outils de reporting et de CRM de la société. A l’époque, ces activités étaient pilotées par un entrepôt de données Oracle, un CRM Neolane (aujourd’hui dans le giron d’Adobe).
Un dispositif trop lent, explique-t-il. « Les temps pour calculer les reporting au quotidien, la nuit, mettaient plus de 8 heures, voire 10 heures », conte-t-il. De la même manière, les données du CRM n’étaient pas rafraîchies avant midi. Ce qui laisse peu de marge, si on a fait une mauvaise journée la veille, pour commencer à réagir d’un point de vue commercial. »
« A cette époque, ajoute-t-il, l’entrepôt de données ne comportait que les données du site e-commerce, liées aux ventes. Alors que nous avions la volonté d’intégrer des données du service clients et des données d’analyse. ». La société disposait donc, d’un côté, des données de trafic du site, comme les pages vues, et, de l’autre, des données de ventes (du CRM donc), sans aucun lien. Par exemple, « nous savions qu’un million de personnes arrivait sur cette page, mais sans savoir au final combien de ventes avaient été réalisées. »
Photobox avait donc pour ambition d’ajouter à cette équation des données clients certes, mais également celles de production, issues par exemple des puces RFID placées dans les usines. Avec ces données, l’entreprise peut ainsi connaître les retards en matière de logistique. « Ce qui est important dans la satisfaction du client. »
Un dimensionnement trop couteux chez Oracle
Mais, avec le dispositif en place, impossible de passer à l’échelle supérieure. « Nous avions atteint la limite du stockage de la base Oracle, et cela ne marchait pas très bien en termes de performances. » Et pour accroitre la capacité, cela implique d’investir dans de nouveaux serveurs et de racheter des licences. Au total, un investissement de 200 000 euros auxquels s’ajoutent des coûts de support. Autre point clé, la société ne disposait pas de DBA (administrateur de bases de données) dédiées à l’entrepôt de données. Photobox sous-traitait ces travaux d’administration auprès d’un prestataire afin de garantir un niveau de disponibilité élevé de sa plateforme. Un coût de DBA évalué entre 40 à 50 euros par an, vient donc s’ajouter aux autres coûts.
La société s’est certes essayée à Hadoop chez AWS car « on pouvait monter rapidement des clusters ». Mais, avec la complexité de la technologie et l’absence de profils Hadoop, les équipes n’avaient fait, en quelque mois, « que configurer le cluster Hadoop et n’avaient pas abordé la notion de données », explique Maxime Mezin. En vain donc.
Photobox s’est alors penché sur l’entrepôt de données du géant du Cloud, Redshift, lors de son lancement. « Nous avions déjà des contacts avec AWS, résume-t-il. La société avait recourt au Cloud de l’Américain lors du pic saisonnier pour recevoir et stocker les photos chargées sur le site de la société. Ce qui nécessite beaucoup de bande passante. » En clair, AWS servait ici de tampon et permettait à Photobox de récupérer a posteriori les images de ses clients. »
Un choix motivé par les coûts et la compatibilité
Photobox est parvenu ainsi à accéder au programme bêta de RedShift et a pu collaborer avec les équipes d’AWS. Par rapport à la concurrence (il cite Google), la solution d’AWS permettait, selon lui, d’avoir meilleure compatibilité de code entre Oracle et RedShift et une meilleure prédictibilité du prix. « On paie en fonction de la quantité de données que l’on va stocker. Chez Google, cela était plus compliqué : il fallait déterminer combien de données il fallait lire pour chaque requête, et le nombre de requêtes. Ce qui est impossible à dire. » Avec RedShift, la rapidité d’exécution des traitements a été multipliée par 10, soutient-il. Sans parler de la vitesse de chargement des données.
Mais ce n’est pas tout. Outre cet accroissement de performances, Photobox met également en avant une forte notion de coûts. « Auparavant, nous avions, en Opex, 30 000 euros en support de licences, le DBA à 40 000 euros, soit 70 000 euros. En Capex, cela nous coutait 20 000 euros, soit 90 000 euros par an, liste-t-il. Avec RedShift, on ne parle que d’Opex ». Photobox explique débourser 13 000 euros par an.
« En plus de cela, les sauvegardes sont réalisées automatiquement – toutes les 5 mn, les données sont répliquées dans une autre zone AWS. Le support est disponible 24/24, y compris le week-end. » Il mentionne les fortes capacités de dimensionnement des outils AWS ainsi que leur simplicité d’usage. Un point fort lorsqu’on souhaite intégrer de plus en plus de sources de données dans son analyse.
Deux RedShift, dont un SSD pour les analyses temps réel
Le dispositif mis en place par Photobox s’appuie sur 2 RedShift : un premier pour stocker toutes les données (« le RedShift historique »), avec des disques durs classiques ; et un second avec des SSD, de taille plus réduite, où sont placées les données fraîches du jour. « Sur ce dernier sont placées les données pour y effectuer des analyses journalières, très rapides. Les données sont ensuite basculées vers le RedShift historique le soir », commente Maxime Mezin. Le SSD, certes plus couteux – il cite un prix 5 fois plus élevé -, permet par exemple d’avoir des statistiques sur combien de clients ont été relancés en temps réel. Le système d’analyse Photobox « ne charge pas un dataset en mémoire, mais il fait de requêtes en temps réel sur le RedShift SSD », précise-t-il, détaillant son architecture.
« Aujourd’hui tous les comportements des clients sont analysés en temps réel. On est capable de faire une offre dans les secondes qui suivent. » Ces fonctions sont accessibles rapidement, note-t-il.
Pourtant, si le Cloud semble être adapté au site web du groupe, Photobox ne pousse pas vers une stratégie tournée entièrement vers le Cloud. « Il est encore intéressant de le conserver le stockage des photos en interne (sauf pendant les pics d’activité en décembre, où le Cloud d’AWS est utilisé pour gérer les débordements, NDLR). Nous fonctionnons en mode hybride. »
QlikView et Redshift, deux solutions complémentaires
Photobox a également changé ses outils d’analyse, et passer d’Oracle OBIEE à QlikView. « Il existe une très bonne compatibilité entre RedShift et QlikView. RedShift est capable de stocker des téraoctets de données et de les agréger très rapidement, et QlickView charge le dataset en mémoire. Les utilisateurs y ont accès très rapidement. » Il explique qu’il existe un add-on QlikView qui se connecte à RedShift.
Outre une analyse des rendements des campagnes marketing, cette architecture de la donnée de Photobox alimente aussi les systèmes des commerciaux. Désormais, la démarche comprend aussi les données de production. Les données du CRM ainsi que les livraisons (Delivery on time) sont trackées
Ces analyses de données permettent par exemple de détecter des anomalies. « Si on a beaucoup de retours clients sur un produit type créé par une même machine, on peut lancer une alerte à la production », raconte Maxime Mezin. Photobox dégage également des patterns pour détecter les clients susceptibles d’appeler le service client. Un score permet par exemple de cibler des profils de personnes qui se demandent où est leur commande avant l’envoi d’un email. « Nous pouvons ainsi envoyer un mail en avance pour les rassurer. »