Crédit Agricole Consumer Finance allume son data lake pour se transformer
Crédit Agricole Consumer Finance articule sa transformation numérique autour d'un data lake bâti sur la plateforme Big Data de Mapr ainsi que la base de données Vertica. Ce data lake est alimenté via la plateforme Talend.
C'est dans le cadre de "Ambition Stratégique 2020", le grand plan stratégique de développement du groupe Crédit Agricole que le projet de transformation numérique de sa filiale crédit à la consommation (mieux connue en France pour sa marque Sofinco) a été lancé voici 2 ans maintenant. Doté d'un budget de 100 millions d'euros sur 3 ans, ce projet baptisé CA CF 3.0 a porté sur l'indispensable « digitalisation » des parcours clients voulue par son marketing, ainsi qu'une rénovation de grande ampleur de l'informatique interne.
« Deux grands principes ont dicté cette modernisation du système d’information », a expliqué Pierrick Condette, à la tête du projet Big Data de CA Consumer Finance aux participants de la conférence Talend Connect : « La partie visible du projet consistait en la refonte des canaux de distribution afin de moderniser notre expérience client. Cela a signifié une refonte de nos sites Web, la modernisation de nos postes de travail et le déploiement de smartphones et tablettes. Beaucoup moins visible, mais très importante, la mise en place d’une approche centrée sur la donnée afin de désiloter l’accès à l’information. Nous avions des mines d’informations dans notre SI, mais celles-ci étaient complètement silotées au sein de près de 400 applications qui composent notre système d’informations. » L’idée forte de ce projet était de mettre en place un data lake afin de désiloter toute l’information interne, qu’il s’agisse des systèmes opérationnels, des systèmes analytiques et des données externes. L'ensemble des données ainsi regroupées pouvait alors être mises à disposition des clients, partenaires et collaborateurs.
Un data lake alimenté par des données internes, mais aussi externes
Le volet "Data Centric" du projet CA CF 3.0 se matérialise par un lac de données, qui a la capacité d'ingérer des données internes issues des systèmes opérationnels, qu'il s'agisse de mainframes, de bases référentielles, de plateformes décisionnelles qui apportent une profondeur historique à nos données, mais aussi des données externes.
Sa capacité d’injection de données est de l’ordre de 10 To par jour. Les données externes proviennent de la DMP (Data Management Platform) de CA CF qui travaille notamment avec Eulerian, Kameleoon, 1000mercis et Google Analytics afin de collecter des données sur les internautes qui consultent ses sites. Sofinco capte aussi des données client sur les réseaux sociaux au moment où l'internaute fait une simulation de crédit sur le site Sofinco.fr - il pré-remplit son formulaire via ses données Facebook ou LinkedIn. « Nous utilisons les informations de ces réseaux sociaux pour mieux connaître nos clients et faciliter l’octroie des crédits. Cela nous permet d'intégrer 100 fois plus de données (notamment externes) pour pouvoir qualifier l’appétence de nos clients. »
Le data lake construit par l'équipe de Pierrick Condette avec le soutient d'Accenture répond à 3 grands types d'usages. D'une part, celui-ci a permis de donner un coup de jeune aux systèmes décisionnels de l'entreprise. « Nous avons aussi en projet une refonte complète de nos systèmes décisionnels et nous avons déjà obtenu d'énormes gains de performances en plaçant nos vieux datamarts sur la plateforme Big Data. Nous avons refondu son usine à reporting en s'appuyant désormais sur Qlikview alimenté de données à partir du Data Lake », explique le responsable.
En outre, les capacités de traitement de la plateforme Big Data permettent de croiser les données de monitoring des sites Web avec les données liées aux ventes. CA CF met notamment en œuvre les solutions DynaTrace pour collecter ces données de ses plateformes Web.
Pierrick Condette se défend d'avoir créé un outil réservé aux seuls Data Scientists : « Les usages de ce Data Lake sont très opérationnels. Il ne s'agit pas seulement de servir les statisticiens, les data miners et les Data Scientists, mais aussi les collaborateurs, les clients et les partenaires. Par exemple, la vision 360 client permet à nos collaborateurs en agence ou sur les plateaux téléphoniques de visualiser facilement l'ensemble des interactions réalisées avec le client, que ce soit sur le Web, que ce soit par email, SMS ou chat. Toutes les informations issues d'applications différentes sont stockées dans le Data Lake puis remise à disposition auprès de nos conseillers. »
Bien évidement, les Data Scientists peuvent explorer de nouveaux jeux de données au sein du Data Lake, afin de construire de nouveaux modèles et enrichir les modèles existants. Mais l'analytique reste bien évidemment un gros consommateur de données de ce Data Lake. La segmentation client se base désormais sur un calcul réalisé au niveau de la plateforme Big Data et les applications front-office rénovées exploitent désormais ces données. Des traitements batch qui demandaient plusieurs jours de calcul ont été réécrits pour la plateforme et peuvent être traités en moins d’une heure.
Deux ans pour mettre en place le Data Lake et son infrastructure
Le projet de Data Lake a été lancé voici deux ans avec, dans un premier temps la mise en place de l'indispensable infrastructure technique. Celle-ci est hébergée chez Silca, l'infogéreur privé du groupe Crédit Agricole. Elle s'appuie essentiellement sur une stack Mapr, la base de données analytique Vertica, et Elastic Search, sachant que la plateforme Talend assure son alimentation en données. « A cette première phase de construction de l'infrastructure a immédiatement succédé une phase "delivery" qui a été menée en parallèle à une phase d'industrialisation du socle. Nous avons voulu gérer immédiatement des exigences qui peuvent sembler contradictoires : délivrer au plus vite, sur le court terme, les premiers projets métiers et démontrer l'efficience de notre plateforme Big Data et le Data Lake, mais aussi construire une plateforme à la fois robuste pérenne, sécurisée et réutilisable. »
Jean-François Guilmard, Big Data Lead chez Accenture France souligne l'importance d'avoir mis en place des équipes communes entre experts Accenture et membres de la DSI du Crédit Agricole CF dans la bonne exécution de ce projet : « Il faut des experts capables de prototyper, essayer des choses, puis trancher. Nous l'avons fait avec une équipe commune, l'idée étant d'effectuer une passation de compétences afin de donner une pleine autonomie aux équipes du CA à l'issue du projet. »
Les équipes ont travaillé en mode agile, sachant que les projets visant à exploiter le Data Lake se sont quelque peu multipliés : « Nous devions délivrer beaucoup de projets de manière rapide et ne pas bruler toutes les ressources sur des projets longs et très consommateurs en ressources. Le but est d'industrialiser et nous nous sommes appuyés sur notre centre de services de Nantes avec une équipe de 6 personnes et autant à l'ile Maurice. »
Talend a aidé à l'industrialisation des traitements de données
Etonnamment, le CA CF n'utilisait pas Talend pour alimenter ses systèmes décisionnels mais pour réaliser des transformations de données issues de ses SI opérationnels, entre les applications financières, et le centre de contact, etc. Le déploiement du Data Lake a été l'occasion pour les équipes BI traditionnelles de mettre en œuvre l'outil qui s'est avéré précieux dans la démarche d'agilité: « Un autre point important et qui a cautionné le choix de Talend : l'outil nous a permis de faciliter les développements, mais aussi de normer, standardiser, et de disposer d'une boîte à outils qui facilite l'industrialisation des développements », explique Pierrick Condette.
Ainsi, Talend permet de créer des composants réutilisables (joblets) qu'il est possible de déployer dans un environnement Big Data. Les joblets Talend exploitent directement l'infrastructure Mapr/Spark déployée par CA CF. La segmentation client recalculée chaque mois met en œuvre 13 jobs Talend Spark similaires qui captent différents indicateurs et permettent de segmenter puis de créer les catégories clients.
A l'opposé, la plateforme doit pouvoir traiter toutes les 5 minutes l'ouverture d'un dossier Sofinco pour la remise d'une nouvelle carte Printemps, une application qui sera prochainement réalisée en mode temps-réel (streaming). Plus d'une vingtaine d'applications de ce type ont été mises en place sur la plateforme Big Data à ce jour et Pierrick Condette espère pouvoir tenir un rythme de 4 à 5 nouveaux usages par trimestre. Le Data Lake n'est désormais plus un projet de R&D mais est pleinement entré dans le patrimoine applicatif du SI CA-CF. Pour le responsable, l'objectif pour 2018 est d'aller vers une plus grande industrialisation des modèles et vers l'analytique temps réel.