olly - Fotolia
BPCE enrichit sa plateforme Data avec un moteur MPP
Doté depuis 2014 d’une plateforme Big Data, le groupe BPCE a progressivement étoffé son catalogue de services, notamment en intégrant un moteur SQL qui lui permet de fédérer l’accès aux données et d’accélérer les requêtes dans un environnement IT hybride.
En matière d’exploitation des données, le groupe BPCE s’appuie sur une double approche. Historiquement, son activité de Corporate Banking (Natixis) exploite une plateforme on-premise hybridée et basée sur une stack Cloudera (cluster Hadoop). Sur le domaine « retail », en revanche, la banque a fait le choix du cloud public avec GCP.
Du côté de Natixis CIB, la mise en place de l’environnement Big Data a débuté en 2014. « La plateforme Data constitue un véritable déclencheur (enabler) technologique avec une offre de services globale et mutualisée », vante Florian Caringi, Manager Data AI Platform & Architecture.
Augmenter la plateforme Data on-prem
La plateforme s’est progressivement enrichie de services et de briques technologiques pour couvrir de nouveaux usages. En 2022 et 2023, les premières étapes d’un move-to-cloud, afin de migrer sur GCP une partie des systèmes existants, sont venues accentuer l’hybridation du SI du groupe BPCE.
Florian CaringiManager Data AI Platform & Architecture, BPCE
Cette migration s’est traduite pour certaines fonctions, dont le Corporate, par une cohabitation entre des environnements on-prem et cloud, dont a résulté une problématique de « fédération de requêtes. Il était nécessaire de maîtriser la multiplication des points d’entrée SQL pour requêter et utiliser la donnée. » Mais l’arrivée du cloud a conduit aussi à accentuer la pression sur l’on-premise en matière de performances.
L’écosystème Data existant reste stratégique pour l’entreprise, notamment afin de prévenir l’effet de client captif, mais aussi en raison de « la richesse de données accumulée ». La décision a donc été prise d’enrichir l’offre de la plateforme on-prem.
La solution : un moteur SQL permettant de répondre à des enjeux d’architecture (Massively parallel processing ou MPP). « Un tel moteur ressemble à du Spark avec un coordinateur et des workers, en écoute, capable de passer à l’échelle pour requêter des bases de données », détaille Florian Caringi.
Afin de sélectionner un moteur MPP, une étude a été initiée lors du salon Big Data 2022 et différentes offres examinées, dont Presto par Denodo, et Starburst. C’est cette dernière qui a finalement été retenue, pour plusieurs raisons, dont l’intégration de la brique open source Trino.
« Certaines nous sont apparues très orientées Hadoop. Or, nous souhaitions une dimension plus cloud native. Le duo Trino en sous-jacent SQL comme moteur et Starburst pour le packaging entreprise nous semblait plus pertinent », justifie l’expert.
Un moteur pour les unir tous et accélérer les usages
Le choix a été renforcé par les retours d’expérience d’autres membres du TOSIT auquel appartient BPCE. « Nous avons beaucoup échangé avec des acteurs bancaires et des télécoms sur l’usage qu’ils faisaient de Starburst et de leur implémentation sur d’autres besoins. »
Un PoC conduit entre février et octobre 2023 est venu confirmer cette décision technologique. L’expérimentation a démontré les gains attendus en termes de temps d’accès, de déploiement et de connectivité.
En matière de connectivité, la solution couvrait l’accès aux briques dites « d’activation » de la donnée déployées chez BPCE : Alteryx, PowerBI, SQL standards, etc. « Toutes devaient pouvoir être amarrées au moteur. »
La première étape a consisté à connecter Starburst au cluster Hadoop existant dans le but d’accélérer l’usage des données.
« Il s’agissait aussi de sortir les utilisateurs du cluster au sens du compute, que nous souhaitons réserver aux traitements opérationnels », justifie le manager Big Data. L’étape suivante visait à connecter le moteur aux bases Exadata déployées massivement dans le groupe pour du datawarehouse et de l’applicatif.
« Nous avons pu commencer à fédérer des requêtes sur Hadoop et Exadata, ce que nous ne faisions pas avant. Nous démarrons le sujet BigQuery. Et dans le même temps, il reste possible de requêter directement BigQuery ou Hive. Starburst offre en parallèle cette possibilité de faire de la fédération et de l’accélération. »
En outre, pour le déploiement, BPCE a opté pour la conteneurisation (Kubernetes), dans le prolongement de sa stratégie OpenShift.
À la clé, un triptyque : du cloud intégré à la stack Data et connecté à l’on-prem, du Kubernetes permettant une position plus agnostique et de la ressource à la demande, et enfin une capacité d’accès accrue aux données.
Starburst combiné aux conteneurs Kubernetes
Dans cet environnement hybride qui s’appuie sur des conteneurs, un moteur était donc considéré comme l’approche à privilégier. « L’idée n’était surtout pas de rajouter une base de données où centraliser à la manière d’un data lake. Nous disposions déjà de sous-jacents opérationnels. L’objectif était de les optimiser et de leur permettre de s’autorequêter. »
Florian CaringiManager Data AI Platform & Architecture, BPCE
Au risque de maintenir des silos ? « Dans une optique Data Mesh, ces sous-jacents constituent des îlots de données et non plus des silos. Il faut accepter, dans un groupe de 135 000 personnes avec une histoire, que chacun ait sa roadmap Data. En revanche, il faut pouvoir leur fournir les outils leur permettant d’activer la donnée », analyse Florian Caringi.
Au terme du PoC achevé en fin d’année dernière, le déploiement et la configuration sont affinés, avec pour cible de premiers clients en production en juin 2024. L’expert reconnaît que la phase d’expérimentation a été longue. Une décision assumée.
« Nous faisions entrer une brique supplémentaire dans la plateforme. Il était crucial d’établir les gains », en particulier en matière d’accélération et de facilitation de l’accès aux différentes sources de données du groupe. Et l’adoption de Starburst (facturée via l’achat de crédits de Compute) s’intégrait en outre à la stratégie mise en œuvre autour de Kubernetes.
En matière de bénéfices, le moteur SQL a permis de diviser en moyenne par quatre la durée des requêtes. « La performance est arrivée directement et par ce biais on modifie d’autres aspects, notamment en ce qui concerne la réplication de données. Il n’est plus nécessaire de déplacer la donnée, la plateforme permettant l’interaction immédiate. »
L’infrastructure reprend du galon à l’ère de la GenAI
Florian Caringi estime que l’accélération du requêtage contribue aussi à raccourcir le prototypage et à simplifier les développements lors de ces phases amont. « Nous allons également mesurer les plus-values sur le Data Management. »
D’autres chantiers attendent l’équipe Data Platform de BPCE. Les LLMs et l’IA générative, par exemple, sont un vecteur de changement. « Il y a peu encore, l’infrastructure était perçue comme une commodité. Aujourd’hui, elle est redevenue un véritable sujet de fond. » La GenAI au sein du groupe est traitée via la consommation de ressources livrées par les fournisseurs cloud pour l’entraînement de modèles.
Florian CaringiManager Data AI Platform & Architecture, BPCE
Le renforcement des ressources internes est toutefois clé, en particulier pour le fine-tuning des modèles open source, pour répondre à des problématiques de sensibilité des données ou pour garantir la viabilité économique d’une application d’IA générative.
« Nous avons consenti à des achats de GPU. La cible, c’est d’intégrer ces GPU à la stack Kubernetes afin d’amener de la parallélisation de compute, tout en nous appuyant sur nos plateformes Data pour apporter la donnée », annonce Florian Caringi.
Sur les bases vectorielles, BPCE étudie la possibilité de réutiliser des sous-jacents existants (open source). Un chantier parallèle, dédié au Data Management, doit s’ouvrir pour garantir la sécurité des données destinées à l’entraînement des modèles d’IA Gen.
« La GenAI est le challenge le plus important de toutes les entreprises actuellement. Dans ce cadre, il est intéressant de constater que l’infrastructure est repassée au statut d’asset d’entreprise. Cela suppose de disposer des ressources nécessaires et de la capacité à maîtriser des ressources rares. Les GPU en sont une parfaite illustration. »