Comment la RATP façonne sa stratégie Data Mesh
La plateforme de données DIANE, propulsée par le lakehouse Databricks, est le « socle » sur lequel la RATP s’appuie pour mettre en place sa stratégie Data Mesh. Un défi de taille pour le groupe qui se prépare à l’ouverture à la concurrence des réseaux de transports franciliens.
RATP. Pour beaucoup de Franciliens, ces quatre lettres évoquent les joies matinales des lignes 9, 12 ou 13. La proximité des corps. L’odeur de (la station) Madeleine.
Plus sérieusement, la RATP est le troisième opérateur de transports urbains dans le monde. Installé dans 15 pays, il organise 16 millions de voyages par jour en train, en bus, en métro, en tramway, en téléphérique ou encore en navette maritime. Il opère en propre huit modes de transport, et cinq autres offres gérées avec des partenaires (scooter, covoiturage, autopartage, véhicule autonome, parking connecté).
Le groupe comptait près de 70 000 salariés en 2022 et réalisait 6,5 milliards de chiffre d’affaires en 2023. La même année, il affichait une perte nette de 109 millions et une dette supérieure à 5,5 milliards d’euros.
Outre l’accueil des voyageurs se rendant aux Jeux olympiques, la RATP doit se préparer à l’ouverture à la concurrence des bus en 2025, puis du tramway, du métro et du RER en 2029.
« La RATP, c’est un groupe qui se transforme. Une transformation qui implique quotidiennement un certain nombre d’enjeux à relever en matière d’efficacité opérationnelle, de développement en France et à l’international », avance Marc Cina, Lead Data Architect chez la RATP, lors de l’événement Data Intelligence Day organisé à Paris par Databricks en avril 2024.
Et pour cela, le groupe considère que les outils numériques représentent un des « leviers » afin d’aider ses agents à optimiser les opérations.
« Dans ce contexte, en 2022, nous avons lancé un programme de transformation “Data” à l’échelle du groupe qui repose sur cinq piliers », raconte le Lead Data Architect. Ces piliers, ce sont la création de valeur, les plateformes, la culture, le patrimoine et l’écosystème de données.
Il s’agit de casser les silos de données internes afin de faciliter la réutilisation des données et leur partage. À la notion de patrimoine de données « groupe », s’accole une stratégie Data Mesh impliquant un découpage en domaines, le partage de responsabilités, la conception de produits de données et l’ambition de proposer des offres en libre-service.
« Les concepts propres au data mesh sont indispensables afin de passer à l’échelle », assure Marc Cina.
« Data Factory »
Ce programme est porté par la « Data Factory », une unité transverse de la RATP rassemblant une centaine de collaborateurs à travers le groupe.
Cette Data Factory mobilise deux entités distinctes : le pôle data, qui endosse les projets métiers et la gouvernance de données au sein de la RATP et un autre responsable de l’architecture de données, des outils et de l’aide au déploiement.
C’est le rôle du pôle « plateforme data groupe ». Il a la charge du déploiement de DIANE, le socle du patrimoine de données. « C’est le cœur du réacteur de la Data Factory pour servir les cas d’usage et la stratégie du pôle data », affirme Stéphane Saretta, Lead Data Architect chez la RATP.
Le rôle des architectes de données au sein de l’entité « plateforme data groupe » est de fournir « le socle, l’expertise technique pour ingérer les données, les structurer, les gouverner et d’assurer l’accompagnement des cas d’usage ».
Les « stratèges » du pôle Data, eux, préparent avec les métiers des feuilles de route afin d’identifier et d’évaluer les cas d’usage.
« La RATP a un SI assez ancien, très industriel, long à modifier : nous sommes sur des cycles de développement longs », indique Stéphane Saretta.
En ce sens, il a été décidé de favoriser la création de « labs ». « Ces “labs” nous permettent d’explorer la faisabilité de cas d’usage, de dérisquer un certain nombre de projets potentiels et de définir les cas d’usage qui seront embarqués sur la plateforme de données », détaille Stéphane Saretta.
Ces cas d’usage sont déployés en mode Agile en s’appuyant sur la méthode Scrum. « L’idée, c’est qu’on valide un cas d’usage porté par une “squad” et cette squad a 5 mois pour délivrer son premier incrément », ajoute-t-il.
DIANE, le socle de données de la RATP
Mise en place en 2022, DIANE doit porter tous les types de cas d’usage, de l’exploration de données en passant par la visualisation et l’analytique jusqu’au déploiement d’algorithmes de machine learning et de deep learning. Concernant ce deuxième volet, il s’agit, entre autres, « d’automatiser des processus métiers et d’augmenter l’efficacité opérationnelle, par exemple en calculant des solutions optimisées de planification de ressources », relate Marc Cina.
La plateforme en question doit également être capable de prendre en charge le déploiement et la suppression rapide des « labs », en sus d’héberger des cas d’usage à large échelle.
De plus, il y a deux ans, « le groupe a décidé de mettre en place une politique “Cloud First”, “SaaS First” » renseigne Stéphane Saretta.
Après des études de marché menées au cours de l’année 2022 auprès des différents éditeurs de plateformes de données, « Databricks s’est imposé comme le partenaire idéal pour ce sujet », avance-t-il.
Il y a toutefois un point pour lequel la RATP a préféré se tourner vers un autre éditeur : la gestion des métadonnées. « En 2022, le metadata catalog de Databricks, Unity Catalog, n’était pas encore aussi avancé qu’il l’est aujourd’hui. Nous nous sommes tournés vers d’autres partenaires pour la gestion des métadonnées. Nous utilisons Unity, mais nous l’avons complété avec la solution Collate », indique Stéphane Saretta.
Le lakehouse Databricks de la RATP a été déployé sur AWS à partir de décembre 2022. Cet été, les architectes auront livré six versions de la plateforme DIANE. « La sixième version devrait être prête en juillet. En deux ans, nous sommes passés d’un concept à une plateforme qui accueille huit cas d’usage en production », note le Lead Data Architect.
En décembre 2023, DIANE accueillait quatre cas d’usage en production, quatre autres étaient en cours de développement. Un an après le lancement de la plateforme, seize études de faisabilité avaient été menées à travers les labs.
Les deux leads data architects de la RATP considèrent que la plateforme DIANE est « relativement jeune » au vu du nombre restreint de jeux de données hébergées et de cas d’usage en production.
« En revanche, nous cherchons les tables qui ont le plus de valeur, afin de modéliser des objets métiers qui pourront être réutilisés par le plus grand nombre », souligne Stéphane Saretta.
La plateforme « consomme » des données auprès de 28 sources différentes et ingère en moyenne 4,5 tables par jour depuis janvier 2024. Elle dessert douze domaines de données.
Pour prendre en charge les cas d’usage relatifs aux différents domaines, dont l’exploitation, la maintenance, les ressources humaines et la finance, le lakehouse ingère trois types de flux de données : des flux orientés événements principalement Apache Kafka, des flux API et, « inévitablement », des transferts de fichiers.
« Ces données sont envoyées vers le coffre data, un espace sécurisé, inaccessible par les utilisateurs », explique Marc Cina.
Une gouvernance de données techniquement maîtrisée…
C’est dans cet environnement que sont réalisés les traitements de minimisation, d’anonymisation ou d’effacement de données. « Ces processus ont été développés en centrale et sont mis à disposition sur étagère », sans nécessiter de les développer à façon, précise-t-il.
« Nous nous appuyons sur les métadonnées et l’étiquetage des données. D’où l’importance d’Unity Catalog et de Collate ».
Les deux outils permettent d’obtenir une « traçabilité verticale », allant des définitions métiers des données jusqu’aux définitions techniques, mais aussi une traçabilité horizontale. L’équipe plateforme sait quelles données sont utilisées, « par qui et pour quoi ».
Les métadonnées alimentent ensuite un catalogue de données Collibra, tandis que la RATP observe le bon fonctionnement de sa plateforme à l’aide de Datadog.
La RATP utilise non seulement Delta Lake, mais également les SQL Warehouse. Les cas d’usage de data science, eux, sont mis en production à l’aide des notebooks Databricks, de PyTorch et de MLFlow. En revanche, pour de « petites études Python », les data scientists ont réclamé des environnements Amazon SageMaker, moins complexes à gérer.
Databricks oblige, les données sont préparées suivant l’approche « Bronze, Silver, Gold ». L’étape d’ingestion, d’anonymisation ou de rejets de données brutes correspond chez la RATP au cachet Bronze décrit par l’éditeur.
Au sein de la plateforme DIANE, 410 jeux de données sont catégorisés Bronze. Plus de 70 d’entre eux sont classifiés C3 (secret). Les architectes ont identifié près de 1 000 champs de données à caractère personnel.
L’étape Silver consiste à filtrer, nettoyer et mettre en qualité les données. La Gold, elle, regroupe la préparation, le croisement et l’enrichissement des données. La RATP a ajouté une étape supplémentaire.
« La RATP a un très gros enjeu en matière de gouvernance de données et du bon respect de la réglementation RGPD », signale Stéphane Saretta.
Stéphane SarettaLead Data Architect, RATP
En sus des données Silver et Gold concoctées pour différents domaines, l’entité Data Factory conçoit des produits de données « pouvant être repartagés au sein d’un domaine de données, voire dans des environnements dédiés à des usages transverses ». Ces produits de données sont rangés dans la catégorie « Diamond ». Pour l’instant, la RATP en compte une dizaine.
Il faut ajouter à cela la nécessité de maintenir la gouvernance dans les outils de visualisation de données, tout en rendant l’expérience utilisateur la plus fluide possible. « La conformité de notre plateforme va jusqu’à l’outil de dataviz », ajoute le responsable. « Quand j’expose les données dans Power BI, je suis encore garant de la conformité des datasets qui sont générés par la plateforme. Il me faut m’assurer que les gens dans Power BI ne font pas n’importe quoi ».
… qui n’empêche pas les défis organisationnels
De manière générale, le concept de Data Mesh « est complexe à appréhender », juge Stéphane Saretta. « Cela demande de travailler son organisation interne. Il y a beaucoup de questions de propriété et de gouvernance de données. La partie technique est finalement la plus aisée », observe-t-il.
Il convient de limiter des périmètres de domaines opérationnels et d’autonomiser les métiers quant à la bonne gestion de leurs produits de données. « Les systèmes peuvent contenir des données qui appartiennent à plusieurs domaines, il faut définir les bonnes politiques de gestion, il faut prendre en compte la manière dont les entités métier collaborent, etc. », liste-t-il.
Si les deux architectes considèrent que la RATP est sur les bons rails en la matière, l’adoption de l’approche Data Mesh est un chantier en cours. Du fait de l’ouverture à la concurrence, la Data Factory devra s’atteler à développer une place de marché permettant de partager les produits de données en interne et à l’externe. « Nous avons énormément de données qui ont de la valeur pour les partenaires de la RATP », estime Stéphane Saretta. Par ailleurs, l’équipe plateforme Data groupe doit encore évaluer si oui ou non les ajouts récents à Unity Catalog justifient l’abandon de Collate.
En parallèle, la RATP est en train de déployer ses premiers cas d’usage d’IA générative en production auprès de ses agents. « Nous observons la feuille de route Databricks de ce côté-là et si [ses outils] ont vocation à enrichir notre portefeuille », note le Lead Data Architect.