shyshka - Fotolia
Pour Suez, la virtualisation de données coule de source
En pleine restructuration, le « nouveau Suez » s’appuie sur la virtualisation de données pour alimenter au quotidien ses rapports BI. La solution choisie, celle de Denodo, pourrait faciliter la gouvernance des données métier dans un groupe constitué d’entités majoritairement autonomes.
En 2020, Veolia a lancé une OPA hostile en vue de racheter son concurrent Suez. Après un accord de rapprochement signé le 14 mai 2021 et une promesse d’achat officiellement déposée le 29 juin 2021, la fusion devrait être finalisée le 31 octobre 2022.
Mais Suez ne disparaît pas dans l’opération. Désormais propriétaire de 60 % des parts de son concurrent, Veolia a cédé l’activité de gestion de l’eau à un consortium composé du fonds d’investissement Meridiam, de GIP et du groupe Caisse des dépôts pour éviter toute accusation de prise de monopole. Cette opération a été finalisée le 31 janvier 2022.
Le « nouveau Suez », une appellation trouvée par le consortium, demeure un leader de la gestion du cycle de l’eau, du recyclage et de la valorisation des déchets. Il compte 35 000 collaborateurs et a réalisé un chiffre d’affaires de 7 milliards d’euros en 2021. Suez est présent en France, en Afrique, Inde, Asie, Australie, Italie et en Europe centrale.
Le groupe dessert 66 millions de personnes à travers ses usines de production d’eau potable.
En octobre 2019, l’entreprise avait présenté sa stratégie Suez 2030. C’est dans ce contexte que Guillaume Jacquet, responsable de la Data Factory chez Suez a rejoint le groupe au début de l’année 2020.
En septembre 2022, le groupe a réévalué ses engagements sur cinq ans, en affirmant se concentrer sur ses cœurs de métier, ainsi que sur sa volonté de se différencier et de mieux choisir les projets dans lesquels il s’investit en misant principalement sur le numérique et l’expérience client.
Depuis 16 ans, Guillaume Jacquet s’est spécialisé dans la mise en œuvre de projets BI et de data warehousing, en tant que consultant chez de grandes ESN ou comme employé de grands groupes.
« Dans le cadre du plan stratégique 2030, avant mon arrivée, il a été décidé de créer une nouvelle équipe en charge de la Data Factory, rattachée à la DSI du groupe », explique-t-il.
Plus particulièrement, cette « usine de la donnée » transverse a été mise sur pied pour résoudre une « complexité organisationnelle ».
« Du fait de la taille du groupe, des nombreuses acquisitions et de son implémentation internationale, beaucoup d’entités étaient autonomes en matière d’IT », raconte le responsable. « Suez compte un grand nombre de producteurs de données. De ce fait, la gestion de projets transverses était difficile ».
En sus de renforcer les capacités du pôle IT central afin d’améliorer la gouvernance des données, Suez a mis en place des hub IT régionaux.
Un enjeu de consolidation de données
Le groupe devait, entre autres, faire face à une problématique de consolidation de données. Comment rassembler et croiser les informations disponibles dans les différentes entités du groupe ? Il s’agit là d’un enjeu typique pour un architecte de la donnée.
Avec l’émergence des lacs de données sur site et dans le cloud, l’idée de centraliser les informations s’est imposée chez bon nombre de fournisseurs et d’entreprises. Ce n’est pas le choix retenu par la DSI et la Data Factory de Suez.
« Le fait de tout centraliser, de recréer un gigantesque data lake, de connecter toutes les sources de données, de tout regrouper, de tout normaliser… cela nous paraissait énorme », confie Guillaume Jacquet.
Guillaume JacquetHead of Data Factory, Suez
« L’idée, c’était d’essayer de mettre à profit les existants et le travail des producteurs de données. Il s’agissait de mettre en place un outil capable de se connecter à n’importe quelles sources de données, mais aussi de les manipuler », indique-t-il.
Il fallait aller vite. De manière générale, le responsable observe que les entreprises ne veulent pas attendre pour piloter leurs prises de décision à l’aide des données. « Le but est d’accélérer l’exploitation des données existantes », constate-t-il.
La DSI de Suez avait fait appel à un data architect externe pour la conseiller sur ce choix d’architecture. En parallèle, elle a croisé le chemin de l’éditeur Denodo, un spécialiste de la virtualisation de données.
« En toute transparence, quand je suis arrivée chez Suez, je n’avais jamais entendu parler du concept », avoue Guillaume Jacquet.
« Notre architecture devait répondre à trois cas d’usage, à savoir des traitements ETL classiques, le support de données en provenance de solutions IoT et la data virtualization ».
Conceptuellement, le principe de virtualisation de données a séduit l’équipe de la Data Factory. « Le concept de virtualisation de données entraîne avec elle une autre notion : la data minimization », note l’expert. « Plutôt que de reproduire les architectures Big Data d’il y a cinq ans – où l’on stockait toutes les données (on les sauvegardait plusieurs fois en attendant d’avoir le temps de les traiter et d’y extraire de la valeur) –, il s’agit d’aller chercher les données dont nous avons besoin pour un usage spécifique ».
De plus, au sein du groupe, chaque entité productrice de données est propriétaire et responsable des informations générées. « Nous, nous devons pouvoir nous appuyer sur ces puits de données pour livrer d’autres produits de données ».
Étant donné ses activités, Suez est également de plus en plus concerné par son empreinte carbone. La virtualisation de données promettait d’apporter un compromis compatible avec sa démarche green IT. « Cela impliquait d’investir dans des serveurs consacrés à la solution de Denodo, mais d’un autre côté, il n’y a plus besoin de dupliquer les bases de données. Les données restent où elles sont, nous les lisons une fois le matin pour alimenter le reporting ou d’autres flux, et c’est tout ».
Techniquement, la solution de Denodo répondait à tous les critères émis par la Data Factory. « Il y a de très bons outils sur le marché pour se connecter à des sources de données et effectuer des transformations, mais il faut souvent payer les connecteurs, il y a des limites techniques en matière de systèmes de stockage, de formats ou de chargement de données », remarque Guillaume Jacquet. « Avec Denodo, nous avons la connectivité, la transformation et la virtualisation ».
Guillaume JacquetHead of Data Factory, Suez
Le choix de Denodo a été acté peu avant l’arrivée de Guillaume Jacquet à son poste, à la fin de l’année 2019. Le responsable a donc été l’un des maîtres d’œuvre du déploiement. « J’ai principalement travaillé avec l’équipe digitale chargée de déployer les nouveaux outils auprès des métiers dans le cadre de leur transformation numérique. Le déploiement de Denodo a d’abord été fonction des cas d’usage ».
« Par exemple, nous avons travaillé à la conception d’un cockpit pour mesurer la performance industrielle », évoque le responsable. « Il fallait surtout démontrer que nous étions capables d’aller chercher de la donnée en provenance de sources multiples, auprès d’entités de niveaux de maturité data inégaux ».
Ainsi, certaines entités historiques avaient déjà des « cubes de données précalculés », tandis que d’autres recueillaient les données manuellement.
La virtualisation de données au service des métiers
Après six mois de déploiement, la Data Factory a connecté trois entrepôts de données hébergés sur le cloud Azure et plusieurs sources dont les données étaient auparavant collectées à l’aide d’un outil tiers. La Data Factory a fait appel à trois consultants indépendants pour ce déploiement.
Un an et demi plus tard, l’implémentation de Denodo permet de gérer 20 produits de données, 50 interfaces accessibles à 70 utilisateurs. Par moins de 60 millions de lignes sont exposées par jour.
Deux consultants aident la Data Factory à maintenir la solution au quotidien. « La réussite d’un projet IT est plus souvent fonction de la conduite du changement métier et du choix des consultants, que de la sélection de l’outil », constate Guillaume Jacquet.
« Aujourd’hui, nous exploitons des données RH, des données “achats”, beaucoup de données industrielles et en provenance de fonctions support », résume-t-il.
Justement, les besoins des fonctions support permettent d’illustrer un cas d’usage « clé » de Denodo. « Beaucoup de fonctions support disposent de leurs propres outils qui génèrent des rapports opérationnels. Seulement, ceux-ci ne sont pas suffisants pour compléter les analyses », explique le responsable. « Ils ont besoin d’exploiter les données, de réaliser des analyses plus poussées. En ce sens, nous cherchons des données multisource, nous les préparons et nous les exposons pour un usage en libre-service avec Power BI ».
Dans « 80 % des cas », Denodo permet d’alimenter quotidiennement des rapports Power BI. L’outil est également utilisé pour synchroniser ou échanger des données entre plusieurs logiciels CRM à travers des API. « Avec Denodo, vous créez une API d’exposition en trois clics », se réjouit le spécialiste. Enfin, il est mis à disposition des data scientists pour alimenter leurs modèles de machine learning. « Mon rôle est d’alimenter les data scientists en données fiables pour qu’ils puissent les exploiter », précise-t-il.
Qu’est-ce que la virtualisation de données ?
Selon Gartner et Forrester, la virtualisation de données est une approche de la gestion de données et plus spécifiquement une forme d’intégration de données permettant à une application de retrouver et de manipuler des données sans en connaître l’emplacement ou le format. L’objectif de cette couche d’abstraction est d’apporter une représentation de données – une vue unifiée – en provenance de sources multiples et disparates sans avoir à copier ou à déplacer les données.
Un outil de virtualisation de données s’appuie généralement sur les métadonnées et les logiques d’intégration associées aux systèmes sources. Idéalement, les données sont mises à jour en temps réel. La virtualisation de données peut être une des briques d’une fabrique de données (data fabric), une solution d’intégration plus complète, ou un des éléments utilisés pour mettre en place un data mesh, une architecture de données décentralisée orientée domaines d’activité. Toutefois, la signification de ces concepts et leur imbrication varient suivant les éditeurs.
La Data Factory en quête de simplicité
Outre ces cas d’usage, Denodo joue de plus en plus le rôle de hub de connexion.
« Denodo nous permet de nous connecter une bonne fois pour toutes à des bases de données, à des cubes, à des fichiers, à des API, à des sources Web, etc. Ensuite, nous pouvons exposer le résultat brut ou mixé de ces données à des applications, à des utilisateurs », déclare Guillaume Jacquet. « L’utilisateur n’a plus à se soucier de la complexité de la configuration d’accès aux jeux de données ».
Pour manipuler Denodo, le responsable estime qu’il faut connaître SQL et la modélisation de données, puisqu’il s’agit d’exposer des « bases de données virtuelles », des vues unifiées. Toutefois, ce n’est pas un outil de développement, mais de paramétrage, synonyme de gain de temps.
Au lieu d’attendre d’avoir rassemblé toutes les parties prenantes d’un projet data, Denodo permet aux métiers de Suez d’obtenir un premier livrable avec des extractions de données au format fichier. « Nous pouvons utiliser ces fichiers, créer les règles de gestion, et configurer le produit de données demandé », avance Guillaume Jacquet. « Au bout de quelques semaines, une fois que nous accédons aux données de manière automatique, il nous suffit de paramétrer l’outil pour qu’il ne se connecte plus aux fichiers stockés sur Sharepoint, un disque dur ou sur un service de stockage en bloc, mais qu’il accède directement aux sources de données ».
Selon le responsable, cela facilite les discussions avec les métiers. Ainsi, ils automatisent des consolidations de données qu’ils effectuaient autrefois avec Excel pour effectuer des rapports mensuels, puis « il s’agit de rafraîchir les données et obtenir davantage de détails » en combinant Denodo et Power BI.
Le rachat de l’ancien Suez par Veolia a influencé ce projet. Les équipes de la Data Factory ont dû « débrancher » les data store mis sur pied par des entités au Royaume-Uni et en Espagne. Le périmètre de ce déploiement devrait encore évoluer. En effet, le nouveau Suez a fait l’acquisition d’une filiale britannique que Veolia n’a pas pu conserver. « L’année 2022 a été une année de transition », remarque Guillaume Jacquet. « Cela sera beaucoup plus clair au premier trimestre 2023 ».
Justement, le responsable anticipe les éventuelles acquisitions que le nouveau Suez pourrait effectuer à l’avenir. « Avoir un outil comme Denodo qui est multicloud nous permet potentiellement de faire le pont entre notre cœur de données – résidant sur Azure – avec d’autres sources déployées sur Google Cloud ou AWS, tout en restant indépendant des solutions Microsoft », affirme-t-il.
Renforcer la gouvernance des données
La Data Factory aimerait également compléter les produits de données – qui couvrent majoritairement douze à seize mois d’activité – avec des historiques de données, par exemple pour répondre aux besoins des équipes RH. Plus spécifiquement, il est question de stocker ces historiques dans Azure Synapse Analytics au format Parquet.
« La virtualisation permet de faire beaucoup de choses, mais dans certains cas, nous avons besoin de stocker les résultats », signale le Head of Data Factory.
Guillaume JacquetHead of Data Factory, Suez
Plus tard, quand l’avenir s’éclaircira, le nouveau Suez pourrait se servir de Denodo pour nourrir un data catalog métier. « La mise en place des outils est moins complexe que l’instauration d’une bonne gouvernance et de nouveaux processus », observe-t-il. « Il s’agit de faciliter l’accès à la bonne donnée en indiquant dans quels rapports elle est accessible, qui en est responsable, et à quelles règles de gestion elle répond ».
Ce catalogue métier pourrait être rattaché au data catalog interne à Denodo permettant d’assurer la traçabilité des données exposées. « Cela peut être une nouvelle manière de documenter nos flux de données », envisage Guillaume Jacquet.
« Les solutions les plus simples sont souvent les plus fiables, les plus efficaces et donc les plus stables », conclut-il.