echiechi - Fotolia
La Commerzbank crée une plate-forme Hadoop pour servir ses besoins d'analyse de données
La banque allemande a créé un nouveau département en charge de délivrer des services d'analyse de données avancés aux différents métiers de l'organisation. Cette entité s'appuie sur une plate-forme Hadoop qui stocke déjà près de 150 To de données
La banque allemande Commerzbank travaille depuis plus d’un an sur un projet de création d’une plate-forme de données centralisée dont l’objectif est de pouvoir être utilisée par tous les départements pour les aider à prendre de meilleures décisions métier.
Le projet, basé sur une plate-forme Hadoop, réduit d’ores et déjà le temps nécessaire pour extraire des informations de l’énorme volume de données souvent complexes collectées par la banque et permet aux décideurs métiers de tirer parti de données qui n’étaient auparavant accessibles qu’à des experts hautement techniques.
Qu’il s’agisse d’aider à définir la cible pour un nouveau produit ou service auprès des clients, de répondre à un changement de réglementation ou de détecter la fraude, la compréhension des données facilite la tâche des entreprises.
« Le premier besoin métier était tout d’abord harmoniser les données de la banque, de créer un hub de données et, au-delà de ce besoin initial d’apporter des solutions d’analyse à même de générer de nouvelles sources de revenus ou de créer des économies de coûts ou d’éviter des fuites de données », explique Kerem Tomak, le responsable du Big Data et des analyses avancées à la Commerzbank.
Pour comprendre les données, il faut investir dans de multiples technologies et dans les bonnes compétences, indique Tomak. La banque a décidé de créer un nouveau département dédié à ce défi. « Dans le cadre de son projet de numérisation, Commerzbank a choisi de créer une équipe et un département dédié, en charge du Big Data et des analyses avancées ».
Tomak a été embauché il y a environ un an pour construire ce département à partir de zéro. Auparavant, il a travaillé dans la Silicon Valley, avec 11 ans d’expérience dans des sociétés telles que Google et Yahoo, où il s’est concentré sur l’analyse, l’implémentation de l’analyse et la création de produits à partir de données. Il a aussi travaillé sur les projets Big Data de plusieurs grands américains de la distribution dont Macy's et Sears avant de rejoindre la CommerzBank
Son travail dans la Silicon Valley a également impliqué la constitution d’équipes pour travailler avec de grandes technologies de données et d’analyse de données.
La Commerzbank est la deuxième plus grande banque d’Allemagne, avec environ 48 000 employés et elle est présente sur l’ensemble des segments bancaires. Elle se concentre sur le secteur des grandes, petites et moyennes entreprises en Allemagne (les fameuses Mittelstand), qui est constitué d'une large part de l’énorme secteur manufacturier allemand. Elle sert aussi plus de 13 millions de clients privés en Allemagne et près de 5 millions ailleurs en Europe.
L’équipe de Tomak ne relève pas de l’informatique, mais, comme l’informatique, sert l’ensemble de l’entreprise.
L’expérience passée aide au choix de la technologie
Le séjour de Tomak dans la Silicon Valley lui a permis d’acquérir de l’expérience sur certaines technologies que les banques commencent à peine à étudier et à mettre en œuvre.
Par exemple, il a choisi l’environnement open source Hadoop (en l'occurrence la solution d'HortonWorks) pour construire la plate-forme de CommerzBank, en raison de son expérience passée avec la technologie. « Je suis un peu partial en raison de mes antécédents dans la Silicon Valley. J’ai travaillé avec Yahoo qui a créé l’environnement qu'est devenu Hadoop. C’était un système interne à l’époque, mais il a été rendu open source », a-t-il dit.
« Au fil des années, j’ai construit des environnements Hadoop pour d’autres entreprises de la Silicon Valley. »
Mais apporter une telle plate-forme à une entreprise qui opère hors du secteur de la technologie implique des changements dans la façon dont elle est utilisée. À cette fin, la plate-forme centrale de Commerzebank utilise de multiples technologies en plus de Hadoop pour aider les utilisateurs qui ne sont pas des experts techniques.
« Chez Yahoo, le travail était très technique », explique Tomak. « Vous deviez écrire vos propres processus et scripts pour utiliser les données. »
« Il fallait des jours, voire des semaines, pour obtenir une vue unifiée des données ou un rapport dont un supérieur hiérarchique avait besoin. Je cherchais des outils rapides et visuels pour nous permettre de faire les choses beaucoup plus vite qu’en écrivant du code, » dit-il.
Des données affinées
C’est là que le logiciel de Trifacta est entré en jeu. La plate-forme de préparation des données en libre-service permet aux personnes qui comprennent le mieux les données de raffiner les données brutes. La plate-forme fournit une interface utilisateur conviviale et s’appuie sur l’apprentissage machine pour automatiser une grande partie du travail compliqué qui exigeait auparavant du code.
Avec cette plate-forme, les personnes qui comprennent le contexte commercial sont capables de travailler avec des ensembles de données volumineux et complexes et de combiner et structurer l’information.
Il est essentiel que le système puisse être utilisé par des non-experts, car il y a un large éventail d’utilisateurs potentiels. La plate-forme est ainsi conçue pour être utilisée par des profils techniques tels que des ingénieurs ou des spécialistes de la donnée, mais aussi par des non-spécialistes comme des analystes métiers, des responsables de la conformité et des risques ou d’enquêteurs sur les fraudes.
La plate-forme de données Commerzbank offre un accès en libre-service pour tous les départements de la banque. « Nous nous efforçons d’amener les gens de l’ensemble de la banque à utiliser la plate-forme centrale pour recueillir les informations dont ils ont besoin », a déclaré Tomak.
Le défi des compétences
Bâtir une telle plate-forme pose toutefois un défi de taille en matière de compétences lorsqu’il s’agit de trouver le bon personnel pour répondre aux exigences de l’équipe de Tomak. Il y a actuellement environ 50 personnes dans l’équipe, mais ce nombre passera à 100 d’ici la fin de l’année.
Ce n’est pas facile, car le profil du candidat idéal est en train de changer. « Les compétences sont en train de passer de compétences de codage pur à une véritable compréhension du contexte métier de l’entreprise », explique Tomak. « Si vous voulez vraiment résoudre un problème métier, vous devez comprendre le contexte métier aussi bien que les données. »
« Ce sont les compétences que je recherche maintenant. Mais les obtenir est toujours difficile parce que toutes les industries recherchent ce type de profils », dit-il.
Une plate-forme qui va continuer à s'enrichir
Bien que beaucoup de choses aient déjà été réalisées grâce à la plate-forme centralisée, le but est d’étendre son usage à l’ensemble de la banque.
« L’environnement est opérationnel, nous avons collecté environ 150 téraoctets de données, nous avons Trifacta dans l’environnement pour nous aider à vérifier la qualité des données et pour délivrer des scénarios métiers comme l’audit et la détection des fraudes, mais d’autres scénarios sont à venir », a déclaré Tomak.
La plate-forme va continuer à s’enrichir avec des données collectées depuis les différents métiers de la bande. L’un des objectifs est aussi d’harmoniser ces données, de continuer à créer plus d’automatisation et de développer un moteur au-dessus du lac de données en utilisant des outils pour rationaliser le traitement des données et en faciliter l’interprétation.