La Société Générale dévoile son plan de bataille sur la donnée
A l'heure de la mise en place des procédures du prochain RGPD, du Big Data et de l'Intelligence Artificielle, la Société Générale tire les premiers fruits d’une transformation numérique engagée voici deux ans. Son Data Lake est opérationnel et ses applications se multiplient.
La data est au cœur de la transformation numérique de la Société Générale. C'est le message qu'à voulu faire passer la quatrième banque française en tenant une conférence dédiée à la Data dans ses nouveaux locaux "Les Dunes" dans l'est de la région parisienne.
Pour Bernardo Sanchez Incera, Directeur général Délégué du groupe, la Data est clé pour la banque car elle permet de repersonnaliser la relation avec le client. « Elle permet de reconstruire cette capacité de donner un avis pertinent à la bonne personne. C'est une situation radicalement différente de celle que nous avons connue jusqu'à présent, et cela transforme intégralement nos métiers. »
La donnée, synonyme de confiance pour une banque
Pour le responsable, la donnée est aujourd’hui un défi car sa sécurité est critique dans le secteur bancaire. Mais la banque de détail doit aujourd’hui se réinventer face aux nouveaux usages.
« Nous devons réinventer notre métier en respectant son essence, même si la façon de la faire change radicalement. L'essence de la relation du client avec sa banque, c'est la confiance. Donc tout ce qui a trait avec la donnée, avec sa protection, fait appel à la confiance. Nous avons bâti cette confiance sur l'argent et elle se retrouve aujourd'hui sur la donnée. Notre défi est de construire la banque du futur en misant sur ce lien qui nous unis à nos clients. »
Le responsable révèle que des centaines d'initiatives liées à la donnée sont en cours au sein du groupe. La mise en conformité avec le RGPD est bien évidemment l'un des chantiers majeurs. La Société Générale a lancé un programme de mise en conformité depuis un peu plus d'un an. Comme l’impose le règlement européen, un Data Protection Officer a été nommé au niveau du groupe en la personne d’Antoine Pechaud.
Si Bernardo Sanchez Incera n'a pas livré de détails quant au cout de ce projet RGPD, il a évoqué un programme de plusieurs dizaines de millions d'euros.
En parallèle, le groupe déploie sa stratégie Big Data, une initiative initiée voici près de deux ans. « Le dispositif mis en place en 2015 par Société Générale sur la donnée se transforme pour accompagner le mouvement Big Data » explique Emmanuelle Payan, CDO du groupe depuis 2015. « Nous avons voulu un dispositif qui soit décentralisé, très proche des métiers, avec un réseau de Chief Data Officer dans chacun de nos métiers. Leur rôle est de maintenir et développer l'actif que constitue la donnée. Ils sont à la frontière entre les métiers et l'IT, et leur principal challenge est de faire fonctionner ces deux populations entres elles. »
La première mission d’Emmanuelle Payan a été de mettre en place la politique de gouvernance de la donnée du groupe, et de définir les rôles et les responsabilités de l’ensemble des acteurs qui interviennent sur la donnée.
« Mon deuxième rôle a été de faciliter l'accès à la donnée et faire en sorte que si un métier - un collaborateur du groupe - a une idée d'utilisation et de valorisation de la donnée, on sache immédiatement où aller chercher cette donnée, et comment l'utiliser dans un time to market qui corresponde à nos objectifs. »
Un Data Lake unique pour l’ensemble des métiers
Pour étayer cette transformation numérique, Xavier Lofficial, directeur de la transformation, des processus et des systèmes d'information de la Société Générale a appuyé son action sur deux piliers : une plateforme technologique commune et le renforcement des équipes.
« Nous avons entrepris une profonde transformation de notre SI depuis quelques années. Cette transformation se poursuit encore pour simplifier son architecture et rationnaliser le nombre d'entrepôts de données dans l'ensemble du groupe. La deuxième initiative que nous avons lancée il y a deux ans maintenant, c'est la création d'une plateforme Big Data au niveau groupe et donc utilisable par tous les métiers du groupe, avec notamment des cas d'usage pour le RGPD. Cette plateforme stocke déjà plusieurs Po de données. »
Le Data Lake mis en place par les équipes de Xavier Lofficial s‘appuie sur la plateforme Big Data Hadoop et Spark dans une distribution Hortonworks.
Apache Kafka assure l'alimentation du Data Lake en quasi-temps réel pour les informations qui requièrent de la réactivité, tandis que certaines peuvent être stockées sur la base NoSQL MongoDB choisie par la Société Générale.
« Cette plateforme a pour vocation de recueillir un maximum de sources de données à l'intérieur du groupe, qu'il s'agisse de flux internes structurés, ou de flux externes non structurés. Ces données vont être déposées sur cette plateforme afin que les Data Scientists puissent les retravailler, les modifier et générer de la valeur à partir d'elles. »
Le directeur de la transformation a porté toute son attention sur le volet sécurité des données stockées dans le Data Lake. « Nous avons investi énormément d'argent afin d'aboutir à une gestion des droits d'accès très fine à l'intérieur de ce Data Lake. Nous sommes en capacité de gérer les accès au niveau de chaque donnée, pour chaque cas d'usage, afin d'être en capacité de dire qui accède à quoi et à quel moment il le fait. Cette sécurisation du Data Lake est complétée d'une sécurité périmétrique qui va nous assurer que les fuites de données ne sont pas possibles. Grâce à des outils de détection et prévention de fuites de données, nous sommes capables de filtrer les tentatives d'employés à sortir des données de la Société Générale. »
Outre le volet purement technologique, cette transformation numérique comporte un important volet relatif aux ressources humaines. Les équipes qui travaillent sur la donnée ont été concentrées aux Dunes, les nouveaux locaux bâtis pour le groupe sur la technopole de Val-de-Fontenay, un lieu dédié aux méthodes agiles, avec des showrooms, des salles de création.
« Nous voulons profiter à plein de cette approche agile en regroupant les experts métiers, les experts en gestion de la données, les Data Scientists et les experts techniques pour tester extrêmement rapidement tous les cas d'usage imaginés par les équipes. »
Après une vague de recrutements, plus de 500 collaborateurs travaillent désormais sur la donnée dans le groupe, un chiffre qui a doublé en 18 mois. Le tiers de ces troupes est composé de Data Scientists.
Outre une campagne de recrutement de profils junior comme d’experts chevronnés de la donnée, la RH de la Société Générale s’est rapprochée des écoles d'ingénieur en informatique mais aussi de la Grande Ecole du Numérique. En outre, la banque a mis en place des programmes de formation sur la donnée et une « Big Data Academy » afin d’insuffler cette culture donnée dans le groupe.
Les premiers cas d’usage du Data Lake sont en production
Parmi les premiers cas d'usage qui mettent en œuvre le Data Lake présentés par la Société Générale, l’application « Vue 360 du client », une application met en œuvre Elastic Search pour naviguer dans les données non structurées.
Pour le volet restitution, ont été évoquées les technologies Angular.js, D3.js et Node.js, sachant que les données « core data » sont exposées sous formes d’API pour les métiers et les partenaires externes du groupe. Vis-à-vis des outils de restitution, Xavier Lofficial veut rester ouvert à différentes approches. « Il faut imaginer notre solution comme un V. En bas, au niveau infrastructure, nous avons standardisé au maximum notre plate-forme car c’est la clé de l’industrialisation, mais lorsqu’on s’élève, nous laissons le choix aux métiers Aux Data Scientists d’utiliser les outils qu’ils jugeront les plus efficaces. »
Autre application dévoilée, le portail NLP (Natural Langage Processing). Il s'agit d'un jeu de 5 API destinées aux analystes financiers qui leur permettent de mener une analyse de sentiment d’un texte via le moteur de Machine Learning. Celui-ci permet aussi une extraction des thèmes principaux du document, un affichage de type cluster des actualités positives et négatives sur une société donnée.
Enfin, les ingénieurs de la Société Générale ont créé leur propre moteur de traduction de l’anglais vers le français.
Outre ces applications destinées aux cols blancs, la Société Générale exploite désormais le Machine Learning dans ces processus automatisés. C'est le cas du ciblage des clients susceptibles de quitter la banque. Près de 11 millions de comptes client sont ainsi analysés chaque mois afin de réduire le taux d’attrition de l’activité banque de détail du groupe. Mis en place depuis un an et demi, le Machine Learning aurait permis d’améliorer d’un facteur 4 ce ciblage des clients sur le départ.
Plus classiquement, la Société générale utilise aussi les données de son Data Lake pour personnaliser les recommandations de produits poussés sur ses espaces web (Société Générale compte près de un milliard de connexions sur ses différents sites chaque année) ainsi que pour choisir l’implantation de ses espaces pro et DAB externe au plus près des besoins de ses clients.
Enfin, le Machine Learning est désormais mis en œuvre dans l’octroie de crédits. L’objectif est d’accorder des crédits à des gens qui sont habituellement écartés par les algorithmes traditionnels, des algorithmes qui travaillent généralement sur 10 à 12 variables pondérées afin de délivrer le scoring du demandeur de prêt. Avec le Machine Learning, ce sont bien plus de données qui sont analysées avant d’accorder le prêt.
La limite actuelle de cette approche est réglementaire, car il est techniquement difficile de démontrer au régulateur comment la décision d’accorder un crédit a été prise alors qu’un algorithme de Machine Learning a un fonctionnement comparable à celui d’une boite noire.